通过 TensorFlow 图 像 处 理 ， 全 面 掌 握 深 度 学 习 模 型 及 应 用 
名 全 面 深入 讲解 反馈 神经 网 络 和 卷 积 神经 网 络 理论 体系 大 中 
总 结合 深度 学 习 实际 案例 的 实现 ， 掌 握 TensorFlow 程 序 设计 方法 和 技巧 数据 
鱼 着 重 深度 学 习 实际 应 用 程序 开发 能 力 和 解决 问题 能 力 的 培养 ER 











TensorFlow Deep Learning Practice 


TensorFlow 
深度 学 习 应 用 实践 


王晓华 著 


哺 革 大 学 出 版 社 





TensorFlow 
深度 学 习 应 用 实践 








所 壮大 学 出 版 社 
北京 


内 容 简 介 


本 书 总 的 指导 思想 是 在 掌握 深度 学 习 的 基本 知识 和 特性 的 基础 上 ， 培 养 使 用 TensorFlow 进行 实际 编程 以 解决 
图 像 处 理 相 关 问 题 的 能 力 。 全 书 力求 深入 浅 出 ， 通 过 通俗 易 懂 的 语言 和 详细 的 程序 分 析 ， 介 绍 TensorFlow 的 基本 
用 法 、 高 级 模型 设计 和 对 应 的 程序 编写 。 

本 书 共 22 章 ， 内 容 包 括 Python 类 库 的 安装 和 使 用 、TensorFlow 基本 数据 结构 和 使 用 、TensorFlow 数据 集 的 创 
建 与 读 取 、 人 工 神经 网 络 、 反 馈 神 经 网 络 、 全 卷 积 神经 网 络 的 理论 基础 、 深 度 学 习 模 型 的 创建 、 模 型 的 特性 、 算 
法 、ResNet、Slim、GAN 等 。 本 书 强调 理论 联系 实际 ， 重 点 介绍 TensorFlow 编程 解决 图 像 识别 的 应 用 ,提供 了 大 
量 数据 集 ， 并 以 代码 的 形式 实现 了 深度 学 习 模型 ， 以 供 读者 参考 。 

本 书 既 可 作为 学 习 人 工 神经 网 络 、 深 度 学 习 、TensorFlow 程序 设计 以 及 图 像 处 理 等 相关 内 容 的 程序 设计 人 员 
培训 和 自学 用 书 ， 也 可 作为 高 等 院 校 和 培训 机 构 相 关 专 业 的 教材 。 
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推荐 序 


第 一 次 见 王晓华 是 他 来 我 这 里 做 培训 ,我 正好 路 过 门口 , 听见 教室 里 笑 声 震 天 ， 就 好 奇 地 
伸 头 进去 看 看 。 一 个 胖 胖 的 男孩 在 给 一 群 我 们 新 招 的 工作 人 员 做 培训 , 好 像 是 在 讲 代码 方面 的 
问题 。 可 以 看 得 出 他 讲 得 非常 好 , 底下 的 听讲 者 都 在 抬 着 头 认真 听 他 讲课 。 要 知道 其 中 不 乏 有 
清华 、 北 大 的 佼佼 者 ， 而 他 ， 却 能 够 轻车熟路 地 引导 他 们 的 思路 ， 驾 驭 整个 课堂 。 

后 来 正式 认识 他 也 是 机 缘 巧 合 , 一 位 计算 机 专业 的 老 同 事 问 我 有 没有 兴趣 审阅 一 本 云 计 算 
方面 的 书 ， 当 时 云 计 算 正 好 是 IT 热点 ， 我 也 想 乘 此 机 会 做 一 个 了 解 ， 就 欣然 答应 。 因 为 我 平 
党 也 做 计算 机 方面 的 教学 工作 , 对 于 教材 好 坏 的 敏感 性 是 非常 强烈 的 。 有 些 书 虽然 署名 是 中 国 
人 ， 但 是 很 多 内 容 直 接 就 是 对 外 国教 材 的 翻译 ， 既 然 翻 译 就 要 做 到 “ 信 达 雅 ” 而 往往 连 最 基 
本 的 “ 信 ” 都 做 不 到 ， 根 本 不 适合 初学 者 或 者 学 生 使 用 。 因 此 当 刚 拿 到 这 本 书 的 初稿 时 ， 我 也 
有 疑虑 一 一 是 不 是 又 是 一 本 翻译 的 书 ， 他 写 的 书 我 是 不 是 能 看 懂 。 抱 着 这 些 疑 虑 ， 我 翻 开 书 稿 
的 第 一 页 ， 从 前 言 开始 ,逐渐 向 我 们 展示 了 云 计算 编程 中 一 个 美丽 而 神秘 的 世界 。 全 书 使 用 浅 
显 易 懂 的 语句 , 对 每 个 知识 点 进行 重点 分 析 , 同时 列举 了 大 量 的 编程 实例 , 向 读者 讲解 每 个 类 、 
每 个 语句 的 用 法 ， 还 特别 细心 地 对 每 条 代码 做 出 注释 。 其 用 心 之 严密 ， 着 实 让 人 感叹 。 

后 来 我 们 正式 见面 于 南京 工业 大 学 的 怡 园 ， 那天 我 记得 很 清楚 ,外 面 细 雨 打 着 柳 叶 , 我 品 
着 绿茶 慢 慢 地 陷入 沉思 。 一 声 “ 抽 老师 ”将 我 从 思索 的 世界 拉 回 现实 。 面 前 站 立 着 一 个 戴 着 眼 
镜 ， 略 微 显得 羞涩 而 紧张 的 男孩 ， 从 他 那 胖 胖 的 身 形 ， 我 依稀 觉得 在 哪 见 过 。“ 哦 ， 你 就 是 王 
晓 华 。”“ 咽 ， 是 的 ， 我 是 王晓华 ， 谢 谢 您 抽 时 间 给 我 审 稿 .” 他 首先 向 我 表示 感谢 。 我 突然 感 
觉 有 点 不 好 意思 , 因为 其 实 我 也 不 是 太 懂 ， 部 分 是 出 于 学 习 的 目的 审阅 此 书 ， 而 此 时 这 个 年 轻 
人 一 口 一 个 息 老 师 地 叫 着 ,谦虚 得 很 。 

此 次 见面 ， 我 们 交谈 甚 欢 ， 从 云 计 算 谈 起 ， 谈 到 了 TensorFlow 的 开源 ， 谈 到 了 深度 学 习 
对 商业 领域 产生 的 影响 和 其 中 蕴含 的 商机 , 又 谈 到 了 人 工 智能 会 对 未 来 社会 带 来 的 变革 。 他 一 
改 初 见 我 时 青 涩 稚嫩 的 形象 , 侃侃 而 谈 。 可 以 看 得 出 他 是 对 这 行 真正 用 心 去 了 解 的 人 , 不 由 得 
对 他 刮目相看 ， 并 萌生 了 为 其 作 序 的 想法 。 这 也 就 是 这 篇 序 的 来 历 。 

说 了 那么 多 ,下 面 介绍 一 下 这 本 书 吧 。 首先 这 本 书 是 介绍 人 工 智 能 和 深度 学 习 的 。 可 能 不 
少 人 和 曾经 的 我 一 样 有 很 多 疑问 , 许多 以 前 必须 由 人 工 完成 的 任务 ,人 工 神经 网 络 能 和 否 为 我 们 
代劳 ? 很 多 人 不 相信 ， 直 至 神经 网 络 真 的 做 到 了 这 一 点 。 
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人 工 神经 网 络 在 各 个 领域 逐步 深入 人 类 社会 ,基于 卷 积 神经 网 络 的 图 像 描述 可 以 给 每 幅 图 
片 打 上 独特 的 标签 , 借助 于 循环 神经 网 络 的 语音 识别 将 推动 物 联网 革命 ,人 工 智能 绝对 是 一 场 
深刻 的 革命 ,确实 在 改变 我 们 的 生活 。 虽 然 我 在 此 仅仅 提 及 了 图 像 、 语 音 和 行为 三 个 方面 , 但 
是 对 于 人 工 智 能 的 机 会 来 说 远 不 止 这 三 个 方面 , 在 自然 语言 处 理 、 生 物 技术 等 方面 ， 人 工 智 能 
也 有 很 多 东西 可 以 做 , 这 些 领 域 都 有 创新 正在 发 生 , 人 工 智能 也 可 以 更 多 地 被 应 用 到 机 器 人 的 
开发 中 。 

我 觉得 ， 这 本 书 是 写 给 有 志 于 深度 学 习 的 人 看 的 ， 书 中 不 仅 有 TensorFlow 程序 设计 的 方 
法 介绍 , 更 多 的 是 传递 作者 对 深度 学 习 和 人 工 智 能 未 来 发 展 的 思考 。 我 希望 这 本 书 能 够 将 更 多 
的 有 志 之 士 带 到 这 一 条 通 向 未 来 的 辉煌 之 路 上 来 ， 从 而 造就 更 多 的 人 才 。 


南京 工业 大 学 括 芳 


一 一 一 


月 扣 


我 们 处 于 一 个 变革 的 时 代 ! 

给 定 一 个 物体 , 让 一 个 3 岁 的 小 孩 描述 这 个 物体 是 什么 ,似乎 是 一 件 非常 简单 的 事情 。 然 
而 将 同样 的 东西 放 在 计算 机 面前 , 让 它 描述 自己 看 到 了 什么 , 这 在 不 久 以 前 还 是 一 件 不 可 能 的 
事 。 

让 计算 机 学 会 “看 ”东西 , 这 是 一 个 专门 的 学 科 一 一 计算 机 视觉 所 正在 做 的 工作 。 借 助 于 
人 工 神 经 网 络 和 深度 学 习 的 发 展 , 近年 来 计算 机 视觉 在 研究 上 取得 了 重大 突破 。 通过 模拟 生物 
视觉 所 构建 的 卷 积 神经 网 络 模型 在 图 像 识 别 和 分 类 上 取得 了 非常 好 的 效果 。 

而 今 ， 借 助 于 深度 学 习 的 发 展 ， 使 用 人 工 智能 去 处 理 常 规 劳 动 、 理 解 语 音 语 义 、 帮 助 医学 
诊断 和 支持 基础 科研 工作 ， 这 些 曾 经 是 梦想 的 东西 似乎 都 在 眼前 。 


写作 本 书 的 原因 

TensorFlow 作为 最 新 的 、 应 用 范围 最 为 广泛 的 深度 学 习 开 源 框架 自然 引起 了 广泛 的 关注 ， 
它 吸 引 了 大 量程 序 设 计 和 开发 人 员 进 行 相关 内 容 的 开发 与 学 习 。 掌 握 TensorFlow 程序 设计 基 
本 技能 的 程序 设计 人 员 成 为 当前 各 组 织 和 单位 热切 寻求 的 热门 人 才 。 他 们 的 主要 工作 就 是 利用 
获得 的 数据 集 设 计 不 同 的 人 工 神经 模型 ,利用 人 工 神 经 网 络 强大 的 学 习 能 力 提取 和 挖掘 数据 集 
中 包含 的 潜在 信息 ， 编 写 相应 的 TensorFlow 程序 对 数据 进行 处 理 ， 对 其 价值 进行 进一步 开发 ， 
为 商业 机 会 的 获取 、 管 理 模式 的 创新 、 决 策 的 制定 提供 相应 的 支持 。 随 着 越 来 越 多 的 组 织 、 单 
位 和 行业 对 深度 学 习 应 用 的 重视 ， 高 层次 的 TensorFlow 程序 设计 人 员 必 将 成 为 就 业 市 场 上 紧 
俏 的 人 才 。 

目前 来 说 ，TensorFlow 虽然 被 谷歌 开源 公布 只 有 不 到 两 年 时 间 ， 但 是 其 在 工业 、 商 业 以 
及 科学 研究 上 的 应 用 量 很 大 , 使 之 成 为 时 下 最 热门 的 深度 学 习 框架 。 由 于 国内 翻译 和 知识 传播 
的 滞后 性 等 多 方面 的 原因 ， 国 内 对 这 方面 的 介绍 较为 欠缺， 缺少 最 新 TensorFlow 框架 使 用 和 
设计 的 相关 内 容 ， 从 而 造成 了 知识 传播 的 延迟 。 学 习 是 为 了 掌握 新 知识 、 获 得 新 能 力 ， 不 应 是 
学 习 已 经 被 气 弃 的 内 容 。 

其 次 ， 与 其 他 应 用 框架 不 同 ，TensorFlow 并 不 是 一 个 简单 的 编程 框架 ， 深 度 学 习 也 不 是 

-个 简 简单 单 的 名 词 , 而 是 需要 相关 研究 人 员 对 隐藏 在 其 代码 背后 的 理论 进行 学 习 、 掌 握 一 定 

的 数学 知识 和 理论 基础 的 。 笔者 具有 长 期 一 线 理科 理论 教学 基础 , 可 以 将 其 中 的 理论 知识 以 非 
常 浅显 易 懂 的 语言 进行 介绍 和 描述 ， 这 点 是 市 面 上 的 某 些 相关 书籍 所 无 法 比拟 的 。 

本 书 是 为 了 满足 广大 TensorFlow 程序 设计 和 开发 人 员 学 习 最 新 的 TensorFlow 程序 代码 要 
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求 而 出 版 的 。 本 书 对 涉及 的 深度 学 习 的 结构 与 编程 代码 做 了 循序 渐进 的 介绍 与 说 明 ， 以 解决 实 
际 图 像 处 理 为 依托 ， 从 理论 开始 介绍 TensorFlow 程序 设计 模式 ， 多 角度 、 多 方面 地 对 其 中 的 
原理 和 实现 提供 翔实 的 分 析 , 并 结合 实际 案例 编写 的 应 用 程序 设计 , 使 读者 能 够 在 开发 者 的 层 
面 掌握 TensorFlow 程序 设计 方法 和 技巧 ， 为 开发 出 更 强大 的 图 像 处 理应 用 打下 扎实 的 基础 。 


本 书 的 优势 








本 书 在 方向 上 偏重 于 使 用 卷 积 神 经 网 络 以 及 其 相关 变化 的 模型 ， 在 TensorFlow 框架 
上 进行 图 像 特 征 提取 、 图 像 识 别 以 及 具体 应 用 ， 这 在 市 面 上 鲜 有 涉及 。 

本 书 并 非 枯燥 的 理论 讲解 ， 而 是 大 量 最 新 文献 的 归纳 总 结 。 在 这 点 上 ， 本 书 与 其 他 编 
程 书籍 有 本 质 区 别 。 本 书 的 例子 都 是 来 自 于 现实 世界 中 对 图 像 分 辨 和 特征 竞赛 的 优胜 
模型 ， 通 过 介绍 这 些 例子 可 以 使 读者 更 深 一 步 地 了 解 和 掌握 其 内 在 的 算法 和 本 质 。 
本 书 作者 有 长 期 研究 生 和 本 科教 学 经 验 ， 通 过 通俗 易 懂 的 语言 对 全 部 内 容 进 行 讲解 ， 
深入 浅 出 地 介绍 反馈 神经 网 络 和 卷 积 神经 网 络 理论 体系 的 全 部 知识 点 ,并 在 程序 编写 
时 使 用 官方 推荐 的 TensorFlow 最 新 框架 进行 程序 设计 ， 帮 助 读者 更 好 地 使 用 最 新 的 
模型 框架 ， 理 解 和 掌握 TensorFlow 程序 设计 的 精妙 之 处 。 

作者 认为 ,掌握 和 使 用 深度 学 习 的 人 才 应 在 掌握 基本 知识 和 理论 的 基础 上 , 重视 实际 
应 用 程序 开发 能 力 和 解决 问题 能 力 的 培养 。 因 此 ， 本 书 结合 作者 在 实际 工作 中 遇 到 的 
大 量 实际 案例 进行 分 析 ,， 抽象 化 核心 模型 并 给 出 具体 解决 方案 , 全 部 程序 例题 均 提 供 
了 相应 代码 ， 以 供 读者 学 习 。 


本 书 的 内 容 


本 书 共 分 为 22 章 ， 所 有 代码 均 采 用 Python 语言 编写 ， 这 也 是 TensorFlow 框架 推荐 使 用 
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第 1 章 介绍 深度 学 习 的 基本 内 容 , 初步 介绍 深度 学 习 应 用 于 计算 机 视觉 和 发 展 方向 , 介绍 


使 用 深度 学 习 解 决 计算 机 视觉 问题 的 应 用 前 景 , 旨 在 说 明 使 用 深度 学 习 和 人 工 智能 实现 计算 机 
视觉 是 未 来 的 发 展 方向 ， 也 是 必然 趋势 。 

第 2 章 介 绍 Python 的 安装 和 最 常用 的 类 库 。Python 语言 是 易 用 性 非常 强 的 语言 ， 可 以 很 
方便 地 将 公式 和 愿景 以 代码 的 形式 表达 出 来 ， 而 无 须 学 习 过 多 的 编程 知识 。Python 专用 类 库 
threading 并 不 常见 ， 只 是 要 为 后 文 的 数据 读 取 和 TensorFlow 专用 格式 的 生成 打下 基础 。 


第 3 章 全 面 介绍 机 器 学 习 的 基本 分 类 、 算 法 和 理论 基础 , 这 里 介绍 了 不 同 的 算法 , 例如 


加 








归 算 法 和 决策 树 算法 的 具体 实现 和 应 用 。 这 些 是 深度 学 习 的 基础 理论 部 分 , 通过 这 些 向 读者 透 
彻 而 准确 地 展示 深度 学 习 的 结构 与 应 用 ,为 更 进一步 掌握 深度 学 习 在 计算 机 视觉 中 的 应 用 打下 
扎实 的 基础 。 

第 4 章 主要 介绍 Python 语言 的 使 用 。 通 过 介绍 和 实现 不 同 的 Python 类 库 ， 帮 助 读者 强化 
Python 的 编程 能 力 、 学 习 相 应 类 库 。 这 些 都 是 在 后 文中 反复 使 用 的 内 容 。 同 时 借用 掌握 的 知 
识 学 习 数据 的 可 视 化 展示 技能 .这 项 技能 在 数据 分 析 中 虽 是 基本 技能 ,但 具有 非常 重要 的 作用 。 
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了 中 


第 5~6 章 是 对 OpenCV 类 库 使 用 方法 的 介绍 。 本 书 以 图 像 处 理 为 重点 ， 对 图 像 数 据 的 读 
取 、 编 辑 以 及 加 工 是 本 书 的 重 中 之 重 。OpenCV 是 Python 中 专门 用 以 对 图 像 处 理 的 类 库 ， 通 
过 基础 讲解 和 进 阶 介绍 使 读者 掌握 这 个 重要 类 库 的 使 用 。 学 会 对 图 像 的 裁剪 、 变 换 和 平移 的 代 
码 编写 。 第 5 章 以 例子 的 形式 对 卷 积 核 的 基础 内 容 做 了 一 个 介绍 ， 并 用 Python 语言 实现 了 卷 
积 核 的 功能 。 卷 积 核 是 本 书 中 非常 重要 的 基础 部 分 ,也 是 图 像 处 理 中 非常 重要 的 组 成 部 分 , 通 
过 编写 相应 的 程序 去 实现 卷 积 核对 图 像 的 处 理 、 掌 握 和 理解 卷 积 神经 网 络 有 很 大 帮助 。 

第 7~8 章 是 TensorFlow 的 入 门 基础 ， 通 过 一 个 娱乐 性 质 的 网 站 向 读者 展示 TensorFlow 的 
基本 应 用 , 用 图 形 图 像 的 方式 演示 神经 网 络 进行 类 别 分 类 的 拟 合 过 程 , 在 娱乐 的 同时 了 解 其 背 
后 的 内 容 。 

第 9 章 是 本 书 的 一 个 重点 , 也 是 神经 网 络 的 基础 内 容 。 本 章 的 反馈 算法 是 解决 神经 网 络 计 
算 量 过 大 的 里 程 碑 算法 。 笔 者 通过 详细 认真 的 讲解 , 使 用 通俗 易 懂 的 语言 对 这 个 算法 进行 介绍 ， 
并 通过 独立 编写 代码 的 形式 为 读者 实现 这 个 神经 网 络 中 最 重要 的 算法 内 容 。 本 章 的 内 容 看 起 来 
不 多 ， 但 是 非常 重要 。 

第 10 章 对 TensorFlow 的 数据 输入 输出 做 了 详细 的 介绍 。 从 读 取 CSV 文件 开始 ， 到 教会 
读者 制作 专用 的 TensorFlow 数据 格式 TFRecord， 这 在 目前 市 面 上 的 书籍 中 鲜 有 涉及 。 使 用 
TensorFlow 框架 进行 程序 编写 、 数 据 的 准备 和 规范 化 是 重 中 之 重 ， 因 此 本 章 也 是 较为 重要 的 
一 个 章节 。 

第 11~12 章 是 应 用 卷 积 神经 网 络 在 TensorFlow 框架 上 进行 学 习 的 一 个 基础 教程 ， 经 过 前 
面 章 节 的 准备 和 介绍 ,采用 基本 理论 一 一 卷 积 神经 网 络 进 行 手写 体 的 辨识 是 深度 学 习 最 基本 的 
技能 ， 也 是 非常 重要 的 一 个 学 习 基础 。 并 且 在 程序 编写 的 过 程 中 , 作者 向 读者 展示 了 参数 调整 
对 模型 测试 结果 的 重要 作用 。 这 是 目前 市 面 上 相关 书籍 没有 涉及 到 的 内 容 ， 非 常 重要 。 

第 13~14 章 是 卷 积 神经 网 络 算法 的 介绍 和 应 用 。 在 这 两 章 内 容 中 ， 笔 者 详细 介绍 卷 积 神 
经 网 络 的 应 用 , 特别 是 在 图 像 识 别 中 的 应 用 , 由 单纯 的 手写 体 数值 的 识别 发 展 到 对 显示 物体 的 
识别 。 借 助 于 图 像 识别 比赛 的 数据 集 ， 使 用 在 比赛 中 得 奖 的 卷 积 神经 网 络 模型 ， 使 读者 掌握 卷 
积 神经 网 络 的 变种 。 卷 积 神经 网 络 的 理论 基础 就 是 卷 积 的 正 向 和 反 向 过 程 , 一 般 正 向 过 程 较 好 
理解 和 学 习 , 但 是 对 于 反 向 运算 , 基本 上 没有 涉及 ， 有 的 话 也 仅仅 是 对 公式 的 复制 和 摘抄 。 本 
书 在 14 章 中 详细 地 介绍 卷 积 神经 网 络 反 向 过 程 的 运算 和 计算 方法 ， 通 过 大 量 例子 的 表述 ， 第 
一 次 非常 详细 地 描述 了 卷 积 神经 网 络 的 反 向 运算 。 这 是 相关 书籍 中 欠缺 的 内 容 。 

第 15 章 通过 一 个 完整 的 例子 演示 使 用 卷 积 神经 网 络 进行 图 像 识 别 的 流程 。 例 子 来 自 于 
ImageNet 图 像 识别 竞赛 ， 所 采用 的 模型 也 是 比赛 中 获得 准确 率 最 高 的 模型 。 通 过 对 项 目 每 一 
步 的 详细 分 析 ， 手 把 手 地 教会 读者 如 何 使 用 卷 积 神经 网 络 进行 图 像 识 别 。 

第 16 章 介绍 VGGNet 的 组 成 结构 ， 着 重 介绍 VGGNet 的 网 络 调 参 以 及 在 其 后 执行 
Finetuning 的 能 力 。 本 章 将 第 15 章 的 例子 复 用 VGG16 实现 ， 给 读者 提供 一 个 以 不 同 的 视角 和 
不 同 的 模型 方法 解决 问题 的 思路 。 

第 17 章 针 对 目前 深度 学 习 就 业者 给 出 的 一 些 面 试题 的 答案 ， 这 些 问 题 可 以 帮助 招聘 者 分 
析 谁 是 高 水 平 的 面试 者 ， 也 能 帮助 就 业者 完善 自己 的 技术 概念 和 知识 , 找 准 自己 的 定位 , 为 将 
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来 升 职 加 薪 铺 平 道 路 。 

第 18 章 介绍 深度 学 习 网 络 ResNet 模型 , 它 是 在 网 络 中 使 用 大 量 残 差 模块 作为 网 络 的 基本 
组 成 部 分 , 主要 作用 是 使 得 网 络 随 着 深度 的 变化 增加 , 而 不 会 产生 权重 衰减 和 梯度 衰减 或 者 消 
失 等 这 些 问 题 。 除 了 ResNet 模型 ， 本 章 还 介绍 了 新 兴 的 卷 积 神经 模型 ， 包 括 SqueezeNet 和 
Xception 。 

第 19~20 章 开始 进入 TensorFlow 学 习 的 高 级 阶段 ， 重 点 介绍 的 是 一 个 API 一 一 Slim， 它 
是 一 个 用 于 定义 、 训 练 和 评估 较为 复杂 模型 的 轻 量 级 开发 类 库 。 这 两 章 不 光 介 绍 了 它 的 使 用 方 
法 ， 还 通过 它 制 作 了 一 个 多 层 感知 机 MLP、 一 个 卷 积 神经 网 络 CNN， 最 后 还 使 用 Slim 预 训 
练 模型 进行 Finetuning。 

第 21 章 介绍 全 卷 积 神经 网 络 图 像 分 割 ， 先 讲解 分 割 的 理论 基础 和 实现 方法 ， 然 后 给 出 了 
全 卷 积 神经 网 络 进行 图 像 分 割 的 分 步 流程 与 编程 基础 ， 最 后 给 出 了 使 用 VGG16 全 卷 积 网 络 进 
行 图 像 分 割 的 实战 。 

第 22 章 讲 解 的 是 GAN 一 一 对 抗 生 成 网 络 ， 本 章 理 论 虽 然 看 似 枯燥 ， 但 笔者 用 一 个 “生成 
器 ”和 一 个 “辨别 器 ”共同 在 一 个 网 络 中 不 停 地 进行 “对 抗 ”来 比喻 ， 降 低 了 阅读 的 难度 。 最 
终 还 通过 使 用 GAN 生成 手写 体 数 字 的 案例 让 读者 真正 学 会 GAN 的 应 用 。 

除 此 之 外 , 全 书 对 于 目前 图 像 识别 最 流行 和 取得 最 好 成 绩 的 深度 学 习 模型 做 了 介绍 , 这 些 
都 是 目前 的 深度 学 习 的 热点 和 研究 重点 。 


本 书 的 特点 


@ ”本 书 不 是 纯粹 的 理论 知识 介绍 ， 也 不 是 高 深 技 术 研 讨 ， 完 全 是 从 实践 应 用 出 发 ， 用 最 
简单 、 典 型 的 示例 引申 出 核心 知识 ,最 后 还 指出 了 通 往 “高 精 尖 ”进一步 深入 学 习 的 
道路 。 

@ ”本 书 没有 深入 介绍 某 一 个 知识 块 ， 而 是 全 面 介绍 TensorFlow 涉及 的 图 像 处 理 的 基本 
结构 和 上 层 程序 设计 ,系统 综合 地 讲解 深度 学 习 的 全 貌 , 使 读者 在 学 习 的 过 程 中 把 握 
好 方向 。 

@ ”本 书 在 写作 上 浅显 易 懂 ， 没 有 深奥 的 数学 知识 ， 而 是 采用 较为 形象 的 形式 ， 使 用 大 量 
图 像 示 例 描 述 应 用 的 理论 知识 ， 让 读者 在 轻松 愉悦 的 阅读 下 掌握 相关 内 容 。 

@ 本 书 旨 在 引导 读者 进行 更 多 技术 上 的 创新 ,每 章 都 会 用 示例 描述 的 形式 帮助 读者 更 好 
地 理解 本 章 的 学 习 内 容 。 

@。 本 书 代 码 遵 循 重 构 原 理 ， 避 免 代码 污染 ,真心 希望 读者 能 写 出 优秀 、 简 洁 、 可 维护 的 
代码 。 


本 书 适合 人 群 
本 书 配套 示例 源 代码 下 载 地 址 (注意 数字 与 字母 大 小 写 ) 如 下 : 
https://pan.baidu.com/s/1jHFg2uq 
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如 果 下 载 有 问题 或 者 对 本 书 有 任何 疑问 ， 请 联系 booksaga@163.com， 邮 件 主题 为 


“TensorFlow ”。 


本 书 适 合 人 群 


本 书 既 适合 学 习 人 工 神经 网 络 、 深 度 学 习 以 及 TensorFlow 程序 设计 等 相关 内 容 的 程序 设 
计 人 员 阅 读 , 也 可 以 作为 高 等 院 校 相关 专业 的 教材 。 建议 在 学 习 本 书 内 容 的 过 程 中 ,理论 联系 
实际 ,独立 进行 一 些 代码 的 编写 , 采取 开放 式 的 实验 方法 ， 即 读者 自行 准备 实验 数据 和 实验 环 
境 ， 解 决 实际 问题 ， 最 终 达到 理论 联系 实际 的 目的 。 
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笃 1 章 


条 上 晤 
< 星星 之 火 * 


当 笔者 还 是 一 个 异 懂 的 小 孩 的 时 候 ， 电 视 台 播放 的 一 部 美国 动画 片 《 变 形 金 刚 》 (图 1-1) 
激 起 了 笔者 对 机 器 人 的 浓厚 兴趣 。 一 句 “ 汽 车 人 ， 变形， 出 发 ! ”不 光 是 孩子 ， 甚 至 于 陪同 观 
看 的 大 人 们 也 会 被 那些 懂 幽 默 会 调 修 ， 充 满 正 义 、 勇 敢 、 智 慧 、 热 情 、 所 向 无 敌 的 变形 金刚 人 
物 所 吸引 。 





og | 


DECEPTICONS OVERVIEL 





图 1-1 变形 金刚 一 一 霸 天 虎 
长 久 以 来 , 机 器 人 和 和 人工 智 能 主题 的 电影 、 电视 剧 和 动画 片 一 直 备 受 观众 喜爱 ， 人 类 用 对 
未 来 无 尽 的 想象 力 和 炫目 的 特技 效果 构筑 了 一 个 又 一 个 精彩 的 未 来 世界 。 但 是 回归 到 现实 , 计 
算 机 科学 家 和 工程 技术 人 员 的 创造 和 设计 能 力 还 远 远 赶不上 电影 编剧 们 的 想象 力 。 动 画 片 终究 
是 动画 片 ， 变 形 金 刚 也 不 存在 于 这 个 现实 世界 中 。 要 研发 出 一 个 像 霸 天 虎 一 样 能 思考 、 看 得 到 
周围 景物 、 听 得 懂 人 类 语言 并 和 人 类 进行 流利 对 话 的 机 器 人 ， 这 条 路 还 很 长 很 长 。 


计算 机 视觉 与 深度 学 习 


长 期 以 来 , 让 计算 机 能 看 、 会 听 可 以 说 是 计算 机 科学 家 孜孜 不 倦 追求 的 目标 , 这 其 中 最 基 
础 的 就 是 让 计算 机 能 够 看 见 这 个 世界 , 赋予 计算 机 一 双 和 人 类 一 样 的 眼睛 , 让 它们 也 能 看 懂 这 
个 美好 的 世界 , 这 也 是 激励 笔者 或 者 说 激励 整个 为 之 奋斗 的 计算 机 工作 者 的 重要 力量 。 虽然 目 
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前 计算 机 并 不 能 达到 动画 片 中 变形 金刚 十 分 之 一 的 能 力 ， 但 是 进步 是 不 会 停息 的 。 


1.1.1 人 类 视觉 神经 的 启迪 


20 世纪 50 年 代 ，Torsten Wiesel 和 David Hubel 两 位 神经 科学 家 在 猫 和 猴子 身上 做 了 一 
项 非常 有 名 的 关于 动物 视觉 的 实验 (图 1-2) 。 


Electrical signal 
from brain 
Recording electrode 一 ~ 


Visual area 一 一 
> ofbrain 





0 Stimulus 


1-2” 脑 部 连 入 电极 的 猫 

实验 中 猫 的 头 部 被 固定 , 视野 只 能 落 在 一 个 显示 屏 区 域 ， 显示 屏 上 会 不 时 出 现 小 光 点 或 者 
划 过 小 光 条 ， 而 一 条 导线 直接 连 入 猫 的 脑 部 区 域 视觉 皮层 位 置 。 

Torsten Wiesel 和 David Hubel 通过 实验 发 现 ， 当 有 小 光 点 出 现在 屏幕 上 时 ， 猫 视觉 皮层 
的 一 部 分 区 域 被 激活 ， 随 着 不 同 光 点 的 闪现 ,不同 脑 部 视觉 神经 区 域 被 激活 。 而 当 屏 幕 上 出 现 
光 条 时 ， 则 有 更 多 的 神经 细胞 被 激活 ， 区 域 也 更 为 丰富 。 他 们 的 研究 还 发 现 ， 有 些 脑 部 视觉 细 
胞 对 于 明暗 对 比 非常 敏感 ， 对 视野 中 光亮 的 方向 〈 不 是 位 置 ) 和 光亮 移动 的 方向 具有 选择 性 。 

从 Torsten Wiesel 和 David Hubel 做 这 个 有 名 的 脑 部 视觉 神经 实验 之 后 ,视觉 神经 科学 (图 
1-3) 正式 被 人 们 确立 。 目 前 为 止 ,关于 视觉 神经 的 几 个 广 为 接 受 的 观点 是 : 


@” 脑 对 视觉 信息 的 处 理 是 分 层级 的 , 低级 脑 区 可 能 处 理 对 边 度 、 边 缘 什 么 的 ,高 级 脑 区 
处 理 更 抽象 的 ， 比 如 人 脸 、 房 子 、 运 动 的 物体 之 类 的 。 信 息 被 一 层 一 层 抽 提 出 来 ， 往 
上 和 传递， 进行 处 理 。 

@ ”大脑 对 视觉 信息 的 处 理 也 是 并 行 的 ,不 同 的 脑 区 提取 出 不 同 的 信息 、 干 不 同 的 活 ， 有 
的 负责 处 理 这 个 物体 是 什么 ， 有 的 负责 处 理 这 个 物体 是 怎么 动 的 。 

@。 脑 区 之 间 存 在 着 广泛 的 联系 ， 同 时 高 级 皮层 对 低级 皮层 也 有 很 多 反馈 投射 。 

@ ”信息 的 处 理 普遍 受到 自 上 而 下 和 自 下 而 上 的 注意 的 调控 。 





图 1-3 视觉 神经 科学 


进一步 的 研究 发 现 , 当 一 个 特定 物体 出 现在 视野 的 任意 一 个 范围 时 , 某 些 脑 部 的 视觉 神经 
元 会 一 直 处 于 固定 的 活跃 状态 。 从 视觉 神经 科学 解释 就 是 人 类 的 视觉 辨识 是 从 视网膜 到 脑 皮 
层 ， 神 经 系统 从 识别 细微 特征 演变 为 目标 识别 。 计 算 机 如 果 拥 有 这 么 一 个 “ 脑 皮层 ”， 能 够 对 
信号 进行 转换 ， 那 么 计算 机 仿照 人 类 拥有 视觉 就 会 变 为 现实 。 


1.1.2 ”计算 机 视觉 的 难点 与 人 工 神经 网 络 

尽管 通过 大 量 的 研究 , 人 类 视觉 的 秘密 逐渐 正在 被 揭 开 , 但 是 相同 的 想法 和 经 验 用 于 计算 
机 上 却 并 非 易 事 。 计 算 机 识别 往往 有 严格 的 限制 和 规格 ,即使 同一 张 图 片 或 者 场景 ， 一 旦 光线 
其 至 于 观察 角度 发 生变 化 , 那么 计算 机 的 判别 也 会 发 生变 化 。 对 于 计算 机 来 说 ， 识 别 两 个 独立 
的 物体 容易 ， 但 是 在 不 同 的 场景 下 识别 同一 个 物体 则 困难 得 多 。 

因此 ， 计 算 机 视觉 (图 1-4) 核心 在 于 如 何 忽 略 同一 个 物体 内 部 的 差异 而 强化 不 同 物体 之 
间 的 区 别 ， 即 同一 个 物体 相似 而 不 同 的 物体 之 间 有 很 大 的 差别 。 





图 1-4 计算 机 视觉 
长 期 以 来 , 对 于 解决 计算 机 视觉 识别 问题 , 大 量 的 研究 人 员 投 入 了 很 多 精力 、 页 献 了 很 多 
不 同 的 算法 和 解决 方案 。 经 过 不 懈 的 努力 和 无 数 次 尝试 , 最 终 计 算 机 视觉 研究 人 员 发 现 , 使 用 
人 工 神经 网 络 解决 计算 机 视觉 问题 是 最 好 的 解决 办 法 。 
人 工 神经 网 络 在 20 世纪 60 年 代 就 萌芽 了 , 但 是 限于 当时 的 计算 机 硬件 资源 ,其 理论 只 能 
停留 在 简单 的 模型 之 上 ， 无 法 全 面 发 展 和 验证 。 


TensorFlow 深度 学 习 应 用 实践 


随 着 人 们 对 人 工 神 经 网 络 的 进一步 研究 , 20 世纪 80 年 代 人 工 神经 网 络 具有 里 程 碑 意 义 的 
理论 基础 “ 反 向 传播 算法 ”的 发 明 , 将 原本 非常 复杂 的 链 式 法 则 拆 解 为 一 个 个 独立 的 只 有 前 后 
关系 的 连接 层 , 并 按 各 自 的 权重 分 配 错误 更 新 。 这 种 方法 使 得 人 工 神经 网 络 从 繁重 的 、 几 乎 不 
可 能 解决 的 样本 计算 中 脱离 出 来 ， 通 过 学 习 已 有 的 数据 统计 规律 对 未 定位 的 事件 做 出 预测 。 

随 着 研究 的 进一步 深入 ，2006 年， 多 伦 多 大 学 的 Geoffrey Hinton 在 深层 神经 网 络 的 训练 
上 取得 了 突破 。 他 首次 证 明了 使 用 更 多 隐 层 和 更 多 神经 元 的 人 工 神 经 网 络 具有 更 好 的 学 习 能 
力 。 其 基本 原理 就 是 使 用 具有 一 定 分 布 规律 的 数据 保证 神经 网 络 模型 初始 化 , 再 使 用 监督 数据 
在 初始 化 好 的 网 络 上 进行 计算 ， 使 用 反 向 传播 对 神经 元 进行 优化 调整 。 











1.1.3 应 用 深度 学 习 解 决 计算 机 视觉 问题 

受 这 些 前 人 研究 的 启发 ，“ 带 有 卷 积 结构 的 深度 神经 网 络 (CNN) ”被 大 量 应 用 于 计算 
机 视觉 之 中 。 这 是 一 种 仿照 生物 视觉 的 逐 层 分 解 算法 ， 分 配 不 同 的 层级 对 图 像 进行 处 理 〈 图 
1-5) 。 例 如 ， 第 一 层 检测 物体 的 边缘 、 角 点 、 尖 锐 或 不 平滑 的 区 域 ， 这 一 层 几 乎 不 包含 语义 
信息 ; 第 二 层 基 于 第 一 层 检 测 的 结果 进行 组 合 ， 检 测 不 同 物体 的 位 置 、 纹 路 、 形 状 等 ， 并 将 这 
些 组 合 传递 给 下 一 层 。 以 此 类 推 ， 使 得 计算 机 和 生物 一 样 拥有 视觉 能 力 、 辨 识 能 力 和 精度 。 





图 1-5 分 层 的 视觉 处 理 算法 


因此 ，CNN， 特 别 是 基本 原理 和 基础 被 视 为 计算 机 视觉 的 首选 解决 方案 ， 这 就 是 深度 学 
习 的 一 个 应 用 。 除 此 之 外 ， 深 度 学 习 应 用 于 解决 计算 机 视觉 的 还 有 其 他 优点 ， 主 要 表现 如 下 : 
@ ”深度 学 习 算法 的 通用 性 很 强 , 在 传统 算法 里 面 ,需要 针对 不 同 的 物体 定制 不 同 的 算法 。 
相 比 来 看 , 基于 深度 学 习 的 算法 更 加 通用 , 比如 在 传统 CNN 基础 上 发 展 起 来 的 faster 

RCNN， 在 人 脸 、 行 人 、 一 般 物 体检 测 任务 上 都 可 以 取得 非常 好 的 效果 (图 1-6) 。 
@ ”深度 学 习 获得 的 特征 (feature ) 有 很 强 的 迁移 能 力 。 所 谓 特征 迁移 能 力 ， 指 的 是 在 A 
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任务 上 学 习 到 一 些 特征 ,在 B 任 务 上 使 用 也 可 以 获得 非常 好 的 效果 .例如 ,在 ImageNet 
(物体 为 主 ) 上 学 习 到 的 特征 ， 在 场景 分 类 任务 上 也 能 取得 非常 好 的 效果 。 

@ 工程 开发 、 优 化 、 维 护 成 本 低 。 深度 学 习 计 算 主 要 是 着 积 和 矩阵 乘 ， 针 对 这 种 计算 优 
化 ， 所 有 深度 学 习 算 法 都 可 以 提升 性 能 。 


person 


met 


motorcycle 





图 1-6 计算 机 视觉 辨识 图 片 


计算 机 视觉 学 习 的 基础 与 研究 方向 


计算 机 视觉 是 一 个 专门 教会 计算 机 如 何 去 “ 看 ”的 学 科 , 更 进一步 说 明 就 是 使 用 机 器 替代 
生物 眼睛 去 对 目标 进行 识别 ， 并 在 此 基础 上 做 出 必要 的 图 像 处 理 ， 加 工 所 需要 的 对 象 。 

使 用 深度 学 习 并 不 是 一 件 简单 的 事 , 建立 一 项 有 真正 能 力 的 计算 机 视觉 系统 更 不 容易 。 从 
学 科 分 类 上 来 说 , 计算 机 视觉 的 理念 在 某 些 方面 其 实 与 其 他 学 科 有 很 大 一 部 分 重合 , 其 中 包括 
人 工 智能 、 数 字 图 像 处 理 、 机 器 学 习 、 深 度 学 习 、 模 式 识别 、 概 率 图 模型 、 科 学 计算 ， 以 及 一 
系列 的 数学 计算 等 。 这 些 领域 吸 需 相关 研究 人 员 学 习 其 中 的 基础 ， 理 解 并 找 出 规律 ， 从 而 揭示 
那些 我 们 以 前 不 曾 注 意 的 细节 。 


1.2.1 ”学习 计算 机 视觉 结构 图 
对 于 相关 的 研究 人 员 , 可 以 把 使 用 深度 学 习 解 决 计算 机 视觉 的 问题 归纳 成 一 个 结构 关系 图 
(图 1-7) 。 





TensorFlow 深度 学 习 应 用 实践 

















_CNN_ 
FastCNN 
国 - AlexNet 
ResNet 
caffe 
Tensorflow Ss 珊 - WSNE 
MXNet 检测 
识别 
2 
| 特征 宁 习 
特征 区 分 


1-7 计算 机 视觉 结构 图 

对 于 计算 机 视觉 学 习 来 说 , 选择 一 个 好 的 训练 平台 是 重 中 之 重 。 因 为 对 于 绝 大 多 数 的 学 习 
者 来 说 , 平台 的 易 用 性 以 及 便捷 性 往往 决定 着 学 习 的 成 败 。 目 前 常用 的 是 TensorFlow、Caffe、 
PyTroch 等 。 

其 次 是 模型 的 使 用 。 自 2006 年 深度 学 习 的 概念 被 确立 以 后 ， 经 过 不 断 的 探索 与 尝试 ， 研 
究 人 员 确 立 了 模型 设计 是 计算 机 视觉 训练 的 核心 内 容 ， 其 中 应 用 较为 广泛 的 是 AlexNet、 
VGGNet、GoogleNet、ResNet 等 。 

除 此 之 外 , 速度 和 周期 也 是 需要 考虑 的 非常 重要 的 因素 , 如 何 使 得 训练 速度 更 快 、 如 何 使 
用 模型 能 够 更 快 地 对 物体 进行 辨识 ， 这 是 计算 机 视觉 中 非常 重要 的 问题 。 

所 有 的 模型 设计 和 应 用 最 核心 的 部 分 就 是 任务 处 理 的 对 象 ， 主 要 包括 检测 、 识 别 、 分 割 、 
特征 点 定位 、 序 列 学 习 五 个 大 的 任务 , 可 以 说 任何 计算 机 视觉 的 具体 应 用 都 是 由 这 五 个 任务 之 

-或 者 由 其 组 合 而 成 。 


1.2.2 ”计算 机 视觉 的 学 习 方式 和 未 来 趋势 

“给 计算 机 连 上 一 个 摄像 头 ， 让 计算 机 描述 它 看 到 什么 。” 这 是 计算 机 视觉 作为 一 门 学 科 
被 提出 时 就 做 出 的 目标 。 如 今 还 有 大 量 研究 人 员 为 这 个 目标 孜孜 不 倦 地 工作 着 。 

拿 出 一 张 图 片 ， 上 面 是 一 只 狗 ， 之 后 青 拿 出 一 张 猫 的 图 片 ， 让 一 个 人 去 辨识 (图 1-8) 。 
无 论 图 片上 的 猫 或 者 狗 的 形象 与 种 类 如 何 , 人 类 总 是 能 够 精确 地 区 分 图 片 是 猫 还 是 狗 。 把 这 种 
带 有 标注 的 图 片 送 到 神经 网 络 模型 中 去 学 习 则 称 为 “监督 学 习 ”。 





图 1-8 猫 VS 狗 
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虽然 目前 来 说 , 在 监督 学 习 的 计算 机 视觉 领域 , 深度 学 习 取 得 了 重大 成 果 , 但 是 相对 于 生 
物 视觉 学 习 和 分 辨 方式 的 “ 半 监 督学 习 ” 和 “无 监督 学 习 ”, 还 有 更 多 更 重大 的 内 容 急 待 解决 ， 
比如 视频 里 物体 的 运动 、 行 为 存在 特定 规律 ， 在 一 张 图 片 里 ， 一 个 动物 也 是 有 特定 的 结构 的 ， 
利用 这 些 视 频 或 图 像 中 特定 的 结构 , 可 以 把 一 个 无 监督 的 问题 转化 为 一 个 有 监督 的 问题 , 然后 
利用 有 监督 学 习 的 方法 来 学 习 。 这 是 计算 机 视觉 的 学 习 方 式 。 

MIT 给 机 器 “看 电视 剧 ” 预 测 人 类 行为 ，MIT 的 人 工 智 能 为 视频 配音 ， 迪 士 尼 研 究 院 可 
以 让 AI 直接 识别 视频 里 正在 发 生 的 事 。 除 此 之 外 , 计算 机 视觉 还 可 应 用 在 那些 人 类 能 力 所 限 、 
感觉 器 官 不 能 及 的 领域 和 单调 乏味 的 工作 上 一 一 在 微笑 瞬间 自动 按 下 快门 , 帮助 汽车 驾驶 员 泊 
车 入 位 ,捕捉 身体 的 姿态 与 电脑 游戏 互动 ， 工 厂 中 准确 地 焊接 部 件 并 检查 缺陷 , 忙碌 的 购物 季 
节 帮 助 仓库 分 拣 商品 ， 离 开 家 时 扫地 机 器 人 清洁 房间 ， 自 动 将 数码 照片 进行 识别 分 类 。 

或 许 在 不 久 的 将 来 〈 图 1-9) ， 超 市 电子 秤 在 称 重 的 同时 就 能 辨别 出 蔬菜 的 种 类 ， 门 禁 系 
统 能 分 辨 出 带 着 礼物 的 朋友 , 或 是 手持 播 棒 即将 行窃 的 歹徒 ; 可 穿戴 设备 和 手机 帮助 我 们 识别 
出 镜头 中 的 任何 物体 并 搜索 出 相关 信息 。 更 奇妙 的 是 ， 它 还 能 超越 人 类 双眼 的 感官 ， 用 声波 、 
红外 线 来 感知 这 个 世界 ， 观 察 云层 的 测 涌 起 伏 来 预测 天 气 ， 监 测 交通 来 调度 车 辆 ， 甚 至 突破 我 
们 的 想象 ， 帮 助理 论 物 理学 家 分 析 超 过 三 维 的 空间 中 物体 的 运动 。 








图 1-9 计算 机 视觉 的 未 来 


这 些 ， 似 乎 并 不 遥远 。 


本 章 小 结 


本 书 在 写作 的 时 候 , 应 用 深度 学 习作 为 计算 机 视觉 的 解决 方案 已 经 得 到 共识 , 深度 神经 网 
络 已 经 明显 地 优 于 其 他 学 习 技术 以 及 设计 出 的 特征 提取 计算 。 神 经 网 络 的 发 展 浪潮 已 经 迎面 而 
来 。 在 过 去 的 历史 发 展 中 ,深度 学 习 、 人 工 神 经 网 络 以 及 计算 机 视觉 大 量 借鉴 和 使 用 人 类 以 及 
其 他 生物 视觉 神经 方面 的 知识 和 内 容 , 而 且 得 益 于 最 新 的 计算 机 硬件 水 平 的 提高 , 更 多 数据 集 
的 收集 以 及 能 够 设计 得 更 深 的 网 络 计算 ， 使 得 深度 学 习 的 普及 性 和 应 用 性 都 有 了 非常 大 的 发 
展 。 充分 利用 这 些 资 源 ,进一步 提高 使 用 深度 学 习 进 行 计算 机 视觉 的 研究 ， 并 将 其 带 到 一 个 新 
的 高 度 和 领域 是 本 书写 作 的 目的 和 对 读者 的 期 望 。 


























让 2 音 


第 2 章 
<Python 的 安装 与 使 用 > 


“人 生 苦 短 ， 我 用 Python”。 

这 是 Python 在 自身 宣传 和 推广 中 使 用 的 口号 , 做 深度 学 习 也 是 这 样 。 对 于 相关 研究 人 员 ， 
最 直接 、 最 简洁 的 需求 就 是 将 自己 的 想法 从 纸 面 进化 到 可 以 运行 的 计算 机 代码 , 在 这 个 过 程 中 ， 
所 需 花费 的 精力 越 小 越 好 。 

Python 完全 可 以 满足 这 个 需求 ， 在 计算 机 代码 的 编写 和 实现 过 程 中 ，Python 简洁 的 语言 
设计 本 身 可 以 帮助 用 户 避 开 没 必要 的 陷阱 ， 减 少 变 量 申明 ， 随 用 随 写 ， 无 须 对 内 存 进行 释放 ， 
这 些 都 极 大 地 帮助 Python 编写 出 需要 的 程序 。 

其 次 ，Python 的 社区 开发 成 熟 ， 有 非常 多 的 第 三 方 类 库 可 以 使 用 。 在 本 章 中 还 会 介绍 
NumPy、PIL 以 及 threading 这 三 个 主要 的 类 库 ， 这 些 开源 的 算法 类 库 在 后 面 的 程序 编写 过 程 
中 会 起 到 很 大 的 作用 。 

最 后 ， 相 对 于 其 他 语言 ，Python 有 较 高 的 运行 效率 ， 而 且 得 益 于 Python 开发 人 员 的 不 懈 
努力 ，Python 友好 的 接口 库 甚 至 可 以 加 速 程序 的 运行 效率 ， 而 无 须 去 了 解 底层 的 运行 机 制 。 

“人 生 苦 短 ， 何 不 用 Python。”Python 让 其 使 用 者 专注 于 逻辑 和 算法 本 身 ， 而 无 须 纠结 

- 些 技术 细节 。Python 作为 深度 学 习 以 及 TensorFlow 框架 主要 的 编程 语言 ， 更 需要 读者 去 掌 
握 与 学 习 。 








Python 基本 安装 和 用 法 


Python 是 深度 学 习 的 首选 开发 语言 ， 但 是 对 于 安装 来 说 ， 很 多 第 三 方 提供 了 集成 大 量 科 
学 计算 类 库 的 Python 标准 安装 包 ， 而 最 常用 的 是 Anaconda。 

Anaconda 的 作用 就 是 里 面 集成 了 很 多 关于 Python 科学 计算 的 第 三 方 库 , 主要 是 安装 方便 。 
而 Python 是 一 个 脚本 语言 ， 如 果 不 使 用 Anaconda， 那 么 第 三 方 库 的 安装 会 较为 困难 ， 各 个 库 
之 间 的 依赖 性 就 很 难 连 接 好 。 因 此 在 这 里 推荐 使 用 集合 了 大 量 第 三 方 类 库 的 安装 程序 
Anaconda 来 蔡 代 Python 的 安装 。 





2.1.1 Anaconda 的 下 载 与 安装 


1. 第 一 步 : 下 载 和 安装 
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Anaconda 的 下 载 地 址 是 https://www.continuum.io/downloads/， 页 面 如 图 2-1 所 示 。 





Additionally, you'll have access to over 720 packages that can easily be installed 
with conda our renowned package, dependency and environment manager 
thatiis included in Anaconda See the packages included with Anaconda and the 
Anaconda changelog 


distribut 
condaar 





packages you want through the conda command 


| 


‘tion, try Miniconda which contains only 
nd Python Then install just the individual 








Download for Windows Download for macos 
Anaconda 4.3.1 


For Windows 


Anaconda Is B50 eensed which gives you permission to vse Anacondy 


commercally and for redntnbvtion, 
Changelog 


1. Download the installer 
2. Optional: Verify data integrity with MDS or SHA-256 More 
info 


3. Double-click the exefile to install Anaconda and Follow the 
instructions on the screen 


64-BIT INSTALLER (414M) 


Behind a firewall? Use these zipped Windows Installers 





2-1 Anaconda 下 载 页 面 


Download for Linux 


Python 3.6 version 


64-BIT INSTALLER (422M) 


32-BIT INSTALLER (348M) 


Python 2.7 version 





目前 提供 的 是 Anaconda 4.3.1 版 本 下 载 ， 里 面 集成 了 Python 3.6。 读 者 可 以 根据 自己 的 操 


作 系统 进行 下 载 。 


这 里 笔者 选择 的 是 Windows 版 本 ， 单 击 运行 即 可 安装 ,与 普通 软件 一 样 。 安 装 完成 以 后 ， 


出 现 程序 面板 ， 目 录 如 图 2-2 所 示 。 


D Anaconda Cloud (py35) 

D Anaconda Cloud 

DD Anaconda Navigator (py35) 
OD Anaconda Navigator 

本 Anaconda prompt (py35) 
到 Anaconda Prompt 

JP Ipython (py35) 

JP Ipython 

二 Jupyter Notebook (py35) 

二 Jupyter Notebook 

二 Jupyter QTConsole (py35) 
二 Jupyter QTConsole 

® Reset Spyder Settings (py35) 
从 Reset Spyder Settings 

全 Spyder (py35) 
全 Spyder 


2-2 ”Anaconda 安装 目录 


2. 第 二 步 : 打开 控制 台 

之 后 依次 单 击 开始 一 所 有 程序 一 Anaconda 一 Anaconda Promp, 打开 窗口 的 效果 如 图 2-3 所 
示 。 这 些 步骤 和 打开 CMD 控制 台 类 似 ， 输 入 命令 就 可 以 控制 和 配置 Python。 在 Anaconda 中 
最 常用 的 是 conda 命令 。 利 用 这 个 命令 可 以 执行 一 些 基本 操作 。 





到 管理 Rs: Anoconda Prompt 


(c: \AMD\Anacondas 








图 2-3 ”Anaconda Prompt 控制 台 
3. 第 三 步 : 验证 Python 
之 后 在 控制 台中 输入 Python， 打 印 出 版 本 号 以 及 控制 符号 ， 并 在 控制 符号 下 输入 代码 : 


print ("hello Python") 





输出 结果 如 图 2-4 所 示 ， 表 明 Anaconda 安装 成 功 。 





硬 管理 呈 : Anaconda Prompt- python 





(GC:\AMD\Anaconda3) C:\U i 

Puthon 3.5.2 |Anaconda S ( C t, Jul 5 2016, 11:41:13) [MSC u 

1909 64 bit (AMD64)] on win32 

Tupe “help”, “copyright", “credits” or “license” for more information 
St 

hello Python 








图 2-4 验证 Anaconda Python 安装 成 功 
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4. 第 四 步 : 使 用 conda 命令 


笔者 建议 读者 使 用 Anaconda 的 好 处 在 于 ， 其 能 够 极 大 地 帮助 读者 安装 和 使 用 大 量 第 三 方 
类 库 。 查 看 已 安装 的 第 三 方 类 库 的 命令 是 : 


conda list 





新 打开 Anaconda Prompt 控 制 台 后 直接 输入 





在 Anaconda Prompt 控 制 台 中 输入 exit0 或 者 了 
conda list 代码 ， 结 果 如 图 2-5 所 示 。 


| 





图 2-5 列 出 已 安装 的 第 三 方 类 库 





Anaconda 中 使 用 conda 进行 操作 的 方法 还 有 很 多 ， 其 中 最 重要 的 是 安装 第 三 方 类 库 ， 命 
令 如 下 : 

conda install name 

这 里 的 name 是 需要 安装 的 第 三 方 类 库 名 , 例如 需要 安装 NumPy 包 ( 这 个 包 已 经 安装 过 )， 
那么 输入 的 相应 命令 就 是 : 

conda install numpy 

使 用 Anaconda 的 好 处 就 是 可 以 自动 安装 所 安装 包 的 依赖 
减轻 了 使 用 者 在 安装 和 使 用 某 个 特定 类 库 的 情况 下 造成 的 依赖 
作 顺 利 进行 。 


库 ， 如 图 2-6 所 示 。 这 样 大 大 
车 的 缺失 的 困难 , 使 得 后 续 工 
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而 管理 器: Anaconda Piompt - conda instal numpy 






pynavelets: 0.5.2-np112| -~ 
following packages will be UPDATED 
astropy: 


| 
bottleneck > 1 
conda 4.3.1 > 二 


3.Z-np112py35_ 
2.6-np112py35- 


6.22-uc14_9 
llunlite 13.9-py35_9 


2 
二 [vc14] 
> 0 
matplotlib 3 9 > 2 
2 
9 
2 


mkl 1 》2917 
nunba > 
mumexpr : z 2 
numpy | 
panda 

able 

kit-ima 

kit-learn 

py 


Proceed ([y]/n)? y 


Ink1-2017.9.1-8 | ETA: ”9:24:92 92.71 kB/s 国 








图 2-6 自动 获取 或 更 新 依赖 类 库 


2.1.2 Python 编译 器 PyCharm 的 安装 

和 其 他 语言 类 似 ，Python 程序 的 编写 可 以 使 用 Windows 自 带 的 控制 台 完成 。 但 是 这 种 方 
式 对 于 较为 复杂 的 程序 工程 来 说 , 容易 混淆 相互 之 间 的 层级 和 交互 文件 , 因此 在 编写 程序 工程 
时 ， 笔 者 建议 使 用 专用 的 Python 编译 器 PyCharm。 

1. 第 一 步 : PyCharm 的 下 载 和 安装 

PyCharm 的 下 载 地 址 为 http://www.jetbrains.com/pycharm/。 

进入 Download 页 面 后 可 以 选择 不 同 的 版 本 ， 收 费 的 专业 版 和 免费 的 社区 版 ， 如 图 2-7 所 
示 。 这 里 笔者 建议 读者 选择 免费 的 社区 版 。 





PyCharm Download 


Download PyCharm 


PC = 


Professional Community 
Full-featured IDE 


for Python & Web 
devel 


Lightweight IDE 
for Python & Scientific 
development 











bowNLoAp 








图 2-7 PyCharm 的 免费 版 
用 默认 安装 即 可 ， 如 图 2-8 所 示 。 





双击 运行 后 进入 安装 界面 ， 直 接 单 击 Next 按钮 采 


但 
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PyCharm Community Edition Setup 和 3 










Welcome to the PyCharm 
Community Edition Setup Wizard 

This wizard will guide you through the installation of PyCharm 
Community Edition. 

Itis recommended that you dose all other applications 


before starting Setup. This will make it possible to update 
relevant system files without having to reboot your 
computer. 


Click Next to continue, 








图 2-8 ”PyCharm 的 安装 文件 


这 里 需要 注意 的 是 ， 在 安装 PyCharm 的 过 程 中 需要 对 安装 的 位 数 进行 选择 ， 这 里 笔者 建 
议 读者 选择 与 所 安装 Python 相同 位 数 的 文件 ， 如 图 2-9 所 示 。 


园 PyCharm Community Edition Setup 一 让 


Installation Options 
Configure your PyCharm Community Edition installation 












































[Teme | [Tere ] 





2-9 ”PyCharm 的 位 数 选择 
安装 完成 后 出 现 Finish 按钮 ， 单 击 后 安装 完成 ， 如 图 2-10 所 示 。 
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PyCharm Community Edition Setup 


Edition Setup Wizard 


PyCharm Community Edition has been instaled on your 
computer. 
Chck Fnish to dose this wizard. 


口 Run PyCharm community Edition 





图 2-10 ”PyCharm 安装 完成 


2. 第 二 步 : 使 用 PyCharm 创建 程序 

单 击 桌 面 上 新 生成 的 图 图 标 进入 PyCharm 程序 界面 ， 首 先是 第 一 次 启动 的 定位 ， 如 图 
2-11 所 示 。 

区 complete Installation = 


Tea can inport your settings from a previous version of PyChara. 








© Frnt to inport ay settings from « custon locstion 
Specify config folder or installation hone of the previous version of PyChare’ 





I not have a previous version of PyChare or I do not sent to import my settings 
[Ee 
2-11 ”PyCharm 启动 定位 
这 里 是 对 程序 存储 的 定位 ， 一 般 建议 选择 第 二 个 由 PyCharm 自动 指定 。 之 后 单 击 Accept 
按钮 ， 接 受 相 应 的 协议 ， 进 入 界面 配置 选项 ， 如 图 2-12 所 示 。 
































pCick to preview 


| | 





2-12 ”PyCharm 界面 配置 
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在 配置 区 域 可 以 选择 自己 的 使 用 风格 对 PyCharm 界面 进行 配置 。 如 果 对 其 不 熟悉 ， 直 接 
单 击 OK 按钮 使 用 默认 设置 即 可 。 

最 后 就 是 创建 一 个 新 的 工程 。 单 击 Create New Project 按钮 , 即 可 新 建 一 个 PyCharm 工程 ， 
如 图 2-13 所 示 。 

















图 2-13 PyCharm 工程 创建 界面 


在 这 里 ， 笔 者 建议 读者 新 建 一 个 PyCharm 的 工程 文件 。 右 击 新 建 的 工程 名 “PyCharm”， 
在 弹出 的 菜单 中 单 击 New | Python File 命令 (图 2-14) ， 新 建 一 个 helloworld 文件 ， 内 容 如 图 
2-15 所 示 。 








2-14 ”PyCharm 新 建文 件 


篇 helloworld.py x | 
pT print("“hello world") 











2-15 ”PyCharm 工程 创建 界面 
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输入 代码 后 ， 单 击 Run|Run... 菜 单 命令 开始 运行 ， 或 者 直接 右 击 “helloworld.py” 文 件 后 
在 弹出 的 菜单 中 选择 “Run ”命令 。 如 果 成 功 输出 “hello world”, 那么 恭喜 你 , Python 与 PyCharm 
的 配置 就 成 了 ! 


2.1.3 使 用 Python 计算 softmax 函数 


对 于 Python 科学 计算 来 说 ， 最 简单 的 想法 就 是 可 以 将 数学 公式 直接 表达 成 程序 语言 。 可 
以 说 ，Python 满足 了 这 个 想法 。 本 小 节 将 使 用 Python 实现 和 计算 一 个 深度 学 习 中 最 为 常见 的 
函数 一 一 softmax 函数 。 至 于 这 个 函数 的 作用 现在 不 加 以 说 明 ， 笔 者 只 是 带领 读者 尝试 实现 其 
程序 的 编写 。 

softmax 计算 公式 如 下 : 





[个 
全 


0 
其 中 ， 护 是 长 度 为 的 数列 严 中 的 一 个 数 ， 带 入 softmax 的 结果 其 实 就 是 先 对 每 一 个 斤 
取 。 为 底 的 指数 计算 变 成 非 负 ， 然 后 除 以 所 有 项 之 和 进行 归 一 化 ， 之 后 每 个 万 就 可 以 解释 成 
观察 到 的 数据 厂 属 于 某 个 类 别 的 概率 ， 或 者 称 作 似 然 〈Likelihood) 。 


softmax 用 以 解决 概率 计算 中 概率 结果 大 占 绝对 优势 的 问题 。 例 如 ， 函 数 计算 结果 中 有 两 
个 值 a 和 b， 且 a>b。 如 果 简单 地 以 值 的 大 小 为 单位 衡量 ， 那 么 在 后 续 的 使 用 过 程 中 a 永 


远 被 选用 ， 而 b 由 于 数值 较 小 则 不 会 被 选择 。 但 是 有 时 也 需要 数值 小 的 b 被 使 用 ， 此 时 
softmax 就 可 以 解决 这 个 问题 。 





softmax 按照 概率 选择 a 和 b， 由 于 a 的 概率 值 大 于 b， 因 此 在 计算 时 a 经 常会 被 取得 ， 而 
b 由 于 概率 较 小 ， 取 得 的 可 能 性 也 较 小 ， 但 是 也 有 概率 被 取得 。 
公式 softmax 的 代码 如 下 : 





可 以 看 出 , 当 传 入 一 个 数列 后 , 分 别 计算 每 个 数值 所 对 应 的 指数 函数 值 , 之 后 将 其 相 加 后 
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计算 每 个 数值 在 数值 和 中 的 概率 。 
a = numpy.array([[1,2,1,2,1,1,3]]) 
结果 如 下 : 


[[ 0. 05943317 0.16155612 0.05943317 0.16155612 0.05943317 0.05943317 
0. 43915506]] 


2.2 Python 常用 类 库 中 的 threading 


如 果 说 Python 的 简单 易 用 葛 定 了 Python 的 发 展 ， 那 么 丰富 的 第 三 方 类 库 就 是 Python 不 
断 前 进 的 动力 。 随 着 科技 前 沿 的 发 展 ，Python 应 用 越 来 越 丰富 ， 更 多 涉及 不 同 种 类 的 第 三 方 
类 库 被 加 入 Python 之 中 。 

Python 常用 类 库 可 参见 表 2-1。 





表 2-1 Python 常用 类 库 









用 Python 实现 的 类 matlab 的 第 三 方 库 ， 用 以 绘制 一 些 高 质量 的 数学 二 维 图 形 
基于 Python 的 matlab 实现 ， 旨 在 实现 matlab 的 所 有 功能 
基于 Python 的 科学 计算 第 三 方 库 ， 提 供 了 矩阵 、 线 性 代数 、 伟 立 叶 变 换 等 的 解决 方案 


PyGtk 基于 Python 的 GUI 程序 开发 GTK+ 库 

PyQt 用 于 Python 的 QT 开发 库 
WxPython Python 下 的 GUI 编程 框架 ， 与 MFC 的 架构 相似 

Python 下 标准 的 界面 编程 包 ， 因 此 不 算 第 三 方 库 
BeautifulSoup | 基于 Python 的 HTML/XML 解析 器 ， 简 单 易 用 
PIL 基于 Python 的 图 像 处 理 库 ， 功 能 强大 ， 对 图 形 文件 的 格式 支持 广泛 
MySQLdb 用 于 连接 MySQL 数据 库 
其 他 | cElementTree | 高 性 能 XML 解析 库 ，Python 2.5 应 该 已 经 包含 该 模块 ， 因 此 不 算 第 三 方 库 
PyGame 基于 Python 的 多 媒体 开发 和 游戏 软件 开发 模块 
Py2exe 将 Python 脚本 转换 为 Windows 上 可 以 独立 运行 的 可 执行 程序 
pefile Windows PE 文件 解析 器 





Matplotlib 





Tkinter 


























表 2-1 给 出 了 Python 中 常用 类 库 的 名 称 和 说 明 。 到 目前 为 止 , Python 中 已 经 有 7000 多 个 
可 以 使 用 的 类 库 供 计算 机 工程 人 员 以 及 科学 研究 人 员 使 用 。 
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2.2.1 threading 库 的 使 用 


对 于 希望 充分 利用 计算 机 性 能 的 程序 设计 者 来 说 ,多 线程 的 应 用 是 必 不 可 少 的 一 个 重要 技 
能 。 多 线程 类 似 于 使 用 计算 机 的 一 个 核心 执行 多 个 不 同 任务 。 多 线程 的 好 处 如 下 : 


@ ”使 用 线程 可 以 把 需要 使 用 大 量 时 间 的 计算 任务 放 到 后 台 去 处 理 。 

@ 减少 资源 占用 ， 加 快 程序 的 运行 速度 。 

@ ”在 传统 的 输入 输出 以 及 网 络 收发 等 普通 操作 上 , 后 台 处 理 可 以 美化 当前 界面 ,增加 界 
面 的 人 性 化 。 


本 节 将 详细 介绍 Python 中 操作 线程 的 模块 : threading。 相 对 于 Python 既 有 的 多 线程 模块 
thread，threading 重 写 了 部 分 API 模块 , 对 thread 进行 了 二 次 封装 ,从 而 大 大 提高 了 执行 效率 ; 
并 且 重 写 了 更 为 方便 的 API 来 处 理 线程 。 


2.2.2 threading 模块 中 最 重要 的 Thread 类 


Thread 是 threading 模块 中 的 重要 类 之 一 ， 可 以 使 用 它 来 创造 线程 。 其 具体 使 用 方法 是 创 
建 一 个 threading.Thread 对 象 ， 在 它 的 初始 化 函数 中 将 需要 调用 的 对 象 作 为 初始 化 参数 传 入 ， 
有 具体 代码 如 程序 2-1 所 示 。 


【程序 2-1】 





在 笔者 定义 的 MyThread 类 中 ， 重 写 了 从 父 对 象 继承 的 run 方法 。 在 run 方法 中 ， 将 一 个 
全 局 变量 逐一 增加 ， 在 接 下 来 的 代码 中 ， 创 建 了 5 个 独立 的 对 象 ， 分 别 调用 其 start 方法 ， 最 
后 将 结果 逐一 打印 。 

在 程序 中 ， 每 个 线程 被 赋予 了 一 个 名 字 ， 然 后 设置 每 隔 0.3 秒 打印 输出 本 线程 的 计数 ， 即 
计数 加 1。 而 count 被 人 为 地 设置 成 全 局 共享 变量 ， 因 此 在 每 个 线程 中 都 可 以 自由 地 对 其 进行 
访问 。 


18 


第 2 章 Python 的 安装 与 使 用 


程序 运行 结果 如 图 2-16 所 示 。 


NMyThreadName:0 2 
JyThreadName:1 2 
MyThreadName:1 4 
NMyThreadName:0 4 
NyThreadName:1 6 
NyThreadName:0 6 
JIyThreadName:1 8 
NMyThreadName:0 8 


图 2-16 程序 运行 结果 


通过 上 面 的 结果 可 以 看 出 , 每 个 线程 被 起 了 一 个 对 应 的 名 字 , 而 在 运行 的 时 候 , 线程 所 计 
算 的 计数 被 同时 增加 。 这 样 可 以 证 明 , 在 程序 运行 过 程 中 两 个 线程 同时 对 一 个 数 进行 操作 , 并 
将 其 结果 进行 打印 。 


其 中 的 mn 方法 和 start 方法 并 不 是 threading 自 带 的 方法 ， 而 是 从 Python 本 身 的 线程 处 理 


模块 Thread 中 继承 来 的 。run 方法 的 作用 是 在 线程 被 启动 以 后 执行 预先 写 入 的 程序 代码 。 
一 般 而 言 ，run 方法 所 执行 的 内 容 被 称 为 Activity; 而 start 方法 是 用 于 启动 线程 的 方法 。 





2.2.3 threading 中 的 Lock 类 


虽然 线程 可 以 在 程序 的 执行 过 程 中 提高 程序 的 运行 效率 ， 但 是 其 带 来 的 影响 却 难以 忽略 。 
例如 ,在 上 一 个 程序 中 , 每 隔 一 定时 间 就 要 打印 当前 的 数值 ， 应 该 逐次 打印 的 数据 却 变 成 了 两 
个 相同 的 数值 ， 因 此 需要 一 个 能 够 解决 这 类 问题 的 方案 出 现 。 

Lock 类 是 threading 中 用 于 锁定 当前 线程 的 锁定 类 。 顾 名 思 义 ， 其 作用 是 对 当前 运行 中 的 
线程 进行 锁定 ， 只 有 当前 线程 被 释放 后 ， 后 续 线程 才 可 以 继续 操作 。 





类 中 的 主要 代码 如 上 所 示 。acquire 方法 提供 了 确定 对 象 被 锁定 的 标志 ，release 在 对 象 被 
当前 线程 使 用 完毕 后 将 当前 对 象 释放 。 修 改 后 的 代码 如 程序 2-2 所 示 。 


【程序 2-2】 
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Lock 被 传递 给 MyThread, 并 在 run 方法 中 人 为 锁定 当前 的 线程 , 必须 等 线程 执行 完毕 后 ， 
后 续 的 线程 才 可 以 继续 执行 。 程 序 执行 结果 如 图 2-17 所 示 。 


myThreadName:0 98 


| Thread 
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myThreadName:l1 103 
myThreadName:1 104 


图 2-17 程序 运行 结果 
从 变色 的 部 分 可 以 看 出 ,线程 2 只 有 等 线程 1 完全 结束 后 才 执 行 后 续 的 操作 。 在 本 程序 中 ， 
Thread1 等 到 Thread0 完全 结束 后 才 执 行 第 二 个 操作 。 
2.2.4 threading 中 的 join 类 


join 类 是 threading 中 用 于 堵塞 当前 主线 程 的 类 ， 其 作用 是 阻止 全 部 的 线程 继续 运行 ， 直 
到 被 调用 的 线程 执行 完毕 或 者 超时 。 具 体 代码 如 程序 2-3 所 示 。 


【程序 2-3】 
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程序 的 运行 结果 如 图 2-18 所 示 。 
start waiting: 29 
start join 
stop waiting 32 
end join 
图 2-18 程序 运行 结果 


其 中 的 time 方法 设 定 了 当前 的 时 间 。 当 join 启动 后 ， 堵 塞 了 调用 整体 进程 的 主 进程 ， 只 
有 当 被 堵塞 的 进程 执行 完毕 后 ， 后 续 的 进程 才 可 以 继续 执行 。 

除 此 之 外 ， 对 于 线程 的 使 用 ，Python 还 有 很 多 其 他 的 方法 ， 例 如 threading.Event 以 及 
threading.Condition 等 。 这 些 都 是 在 程序 设计 时 能 够 极 大 地 帮助 程序 设计 人 员 编写 合适 程序 的 
工具 。 限 于 篇 幅 ， 这 里 不 再 一 一 进行 介绍 。 在 后 续 的 使 用 过 程 中 ， 笔 者 会 带领 读者 了 解 和 掌握 
更 多 的 相关 内 容 。 


2 .3 本 章 小 结 


本 章 介绍 了 Python 的 基本 安装 和 编译 器 的 使 用 。 在 这 里 笔者 推荐 读者 使 用 PyCharm 免费 
版 作为 Python 编辑 器 ， 有 助 于 更 好 地 安排 工程 文件 的 配置 和 程序 的 编写 。 

同时 ， 本 章 还 介绍 了 一 些 常用 的 类 库 。 这 里 只 是 把 线程 类 做 了 一 个 详细 的 介绍 。 线 程 类 是 
Python 最 为 重要 的 一 个 类 库 ， 在 后 面 的 代码 编写 中 会 频繁 遇 到 。 

本 章 是 Python 最 基础 的 内 容 ， 后 面 章节 还 将 以 Python 使 用 为 主 ， 并 且 还 会 介绍 更 多 的 
Python 类 库 ， 希 望 读者 能 够 掌握 相关 内 容 。 
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第 3 章 
深度 学 习 的 理论 基础 一 一 机 器 学 习 


通过 前 一 章 对 Python 的 介绍 , 读者 对 使 用 Python 进行 程序 设计 的 基本 流程 有 了 一 个 大 致 
的 了 解 ， 并 且 对 其 使 用 的 算法 和 工具 有 了 初步 的 认识 。 笔 者 的 目的 也 是 如 此 。 

本 章 开始 将 对 深度 学 习 的 基础 部 分 一 一 机 器 学 习 做 一 个 浅显 的 介绍 , 着重 强调 模型 也 就 是 
算法 的 应 用 ， 并 且 会 介绍 机 器 学 习 和 深度 学 习 中 最 基本 的 一 些 内 容 ， 以 及 Python 实现 。 

可 以 说 对 于 深度 学 习 或 者 泛 化 的 一 般 机 器 学 习 而 言 ,选择 不 同 的 算法 对 数据 分 析 的 过 程 和 
数据 的 需求 有 着 极 大 的 不 同 , 而 其 中 最 重要 的 部 分 就 是 算法 的 选择 。 从 本 质 上 来 说 ， 机 器 学 习 
和 数据 分 析 就 是 一 个 对 数据 处 理 、 分 析 、 归 类 的 过 程 ， 是 人 类 多 科学 智慧 发 展 的 成 果 和 结晶 ， 
在 进行 过 程 运算 的 时 候 ， 充 分 应 用 人 工 智 能 、 神 经 网 络 、 递 归 处 理 、 边 缘 抉 择 等 交叉 学 科 的 现 
有 成 果 ， 可 以 充分 利用 不 同学 科 、 不 同 理论 的 关键 思想 。 











机 器 学 习 基本 分 类 


首先 对 于 不 同 的 学 习 目的 和 计算 要 求 , 机 器 学 习 在 实际 中 按 不 同 目 的 有 着 不 同 分 类 , 其 中 
包括 基于 学 科 的 分 类 、 基 于 学 习 模 式 的 分 类 以 及 基于 应 用 领域 的 分 类 。 


3.1.1 基于 学 科 的 分 类 
- 般 而 言 , 机 器 学 习 在 实际 使 用 过 程 中 主要 应 用 和 使 用 若干 种 学 科 的 知识 和 内 容 , 吸收 兼 
并 不 同 的 思想 和 理念 ， 从 而 使 得 机 器 学 习 最 终 的 正确 率 提高 。 算 法 不 同 ,学 习 过 程 和 方式 也 不 
尽 相 同 。 机 器 学 习 在 实际 中 所 使 用 的 学 科 方 法 主要 分 成 以 下 几 类 : 
@ 统计 学 : 基于 统计 学 的 学 习 方法 是 收集 、 分 析 、 统 计数 据 的 有 效 工具 ,描述 数据 的 集 
中 和 离散 情况 ， 模 型 化 数据 资料 。 
@ 人工 智能 : 是 一 种 积极 的 学 习 方法 利用 已 有 的 现成 的 数据 对 问题 进行 计算 , 从 而 提 
高 机 器 本 身 计算 和 解决 问题 的 能 
@ ”信息 论 : 信息 的 度量 和 蚁 的 度量 ， 对 其 中 信息 的 设计 和 掌握 。 
@ ”控制 理论 : 理解 对 象 相互 之 间 的 联系 与 通信 ， 关 注 于 总 体 上 的 性 质 。 
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因此 可 以 说 , 机 器 学 习 的 过 程 就 是 不 同 的 学 科 之 间 相 互 支 撑 、 相 互 印证 、 共 同 作用 的 结果 。 
机 器 学 习 的 进步 又 直接 扩展 了 相关 学 科 中 人 工 智能 的 研究 , 取得 了 丰硕 的 成 果 , 并 且 使 得 机 器 
学 习 在 原 有 基础 上 产生 了 更 大 层次 的 飞跃 。 


3.1.2 ”基于 学 习 模 式 的 分 类 
学 习 模式 是 指 机 器 学 习 在 过 程 训练 中 所 使 用 的 策略 模式 ,一 个 好 的 学 习 模式 一 般 是 由 两 部 
分 构成 ， 即 数据 和 模型 所 构成 。 数 据 提供 基本 的 信息 内 容 ， 而 模型 是 机 器 学 习 的 核心 ， 使 得 通 
过 机 器 学 习 能 够 将 数据 中 蕴含 的 内 容 以 能 够 被 理解 的 形式 保存 下 来 。 
- 般 来 说 , 机 器 学 习 中 学 习 模式 是 根据 数据 中 所 包含 的 信息 复杂 度 来 分 类 的 , 基本 可 以 分 
成 以 下 几 类 : 
@ ”归纳 学 习 : 归纳 学 习 是 应 用 范围 最 广 的 一 种 机 器 学 习 方 法 , 通过 大 量 的 实例 数据 和 结 
果 分 析 , 使 得 机 器 能 够 归纳 获得 该 数据 的 一 种 一 般 性 模型 ， 从 而 对 更 多 的 未 知 数据 进 
行 预测 。 
@ 解释 学 习 : 根据 已 有 的 数据 对 一 般 的 模型 进行 解释 , 从 而 获得 一 个 较为 泛 型 的 学 习 模 
型 。 
@。 反馈 学 习 : 通过 学 习 已 有 的 数据 , 根据 不 断 地 获取 数据 的 反馈 进行 模型 的 更 新 ， 从 而 
直接 获取 一 个 新 的 、 可 以 对 已 有 数据 进行 归纳 总 结 的 机 器 学 习 方 法 。 


因此 可 以 看 到 , 机 器 学 习 在 学 习 模 式 上 的 分 类 实际 上 就 是 学 习 模型 的 分 类 。 需 要 注意 的 是 ， 
在 机 器 学 习 的 运行 过 程 中 , 模型 往往 跟 数 据 的 复杂 度 成 正比 一 一 数据 的 复杂 度 越 大 , 模型 的 复 
杂 度 就 越 大 ， 计 算 就 越 为 复杂 。 

不 同 的 数据 所 要 求 的 模型 也 是 千差万别 , 因此 机 器 学 习 中 学 习 模式 的 分 类 实际 上 是 基于 不 
同 的 数据 集 而 采用 的 不 同 的 应 对 策略 , 基于 应 对 策略 的 不 同 而 选择 不 同 的 模型 ,从 而 获得 更 好 
的 分 析 结 果 。 


3.1.3 ”基于 应 用 领域 的 分 类 


机 器 学 习 的 最 终 目的 是 解决 现实 中 的 各 种 问题 。 通 过 机 器 学 习 的 不 同 应 用 领域 ,可 以 将 其 
分 成 以 下 几 类 : 

@ 专家 系统 : 通过 数据 的 学 习 ， 获 得 拥有 某 个 方面 大 量 的 经 验 和 认识 的 能 力 ， 从 而 使 之 
能 够 利用 相关 的 知识 来 解决 和 处 理 问题 。 

@ ”数据 挖 气 : 通过 对 既 有 知识 和 数据 的 学 习 , 从 而 能 够 挖掘 出 隐藏 在 数据 之 中 的 行为 模 
式 和 类 型 ， 从 而 获得 对 某 一 个 特定 类 型 的 认识 。 

@ 图像 识 别 : 通过 学 习 已 有 的 数据 , 从 而 获得 对 不 同 的 图 像 或 同一 类 型 图 像 中 特定 目标 
的 识别 和 认识 。 

@ ”人工 智 能 : 通过 对 已 有 模式 的 认识 和 学 习 ， 使 得 机 器 学 习 能 够 用 于 研究 开发 、 模 拟 和 
扩展 人 的 多 重 智能 的 方法 、 理 论 和 技术 。 


23 


TensorFlow 深度 学 习 应 用 实践 





@ ”自然 语言 处 理 : 实现 人 与 对 象 之 间 通过 某 种 易于 辨识 的 语言 进行 有 效 通信 的 一 种 理论 
除 此 之 外 ,基于 机 器 学 习 的 应 用 领域 还 包括 对 问题 的 规划 和 求解 .故障 的 自动 化 分 析 诊 断 、 
经 验 的 推理 等 。 主 要 的 分 类 如 图 3-1 所 示 。 


”模式 识别 计算 机 视觉 “ 守 
数据 控 所 | 
了 语音 识别 他 
坷 
机 器 学 习 
统计 学 习 
0/ 自然 语言 处 理 襄 玫 Ts 


图 3-1 机 器 学 习 的 主要 分 类 
因此 可 以 说 ， 对 于 机 器 学 习 的 各 种 分 类 ,， 绝 大 部 分 都 可 以 分 成 两 类 ， 即 问题 的 模型 建立 和 
基于 模型 的 问题 求解 。 
问题 的 模型 建立 是 指 通过 对 数据 和 模式 的 输入 , 做 出 描述 性 分 析 ， 从 而 确定 输入 的 内 容 的 
形式 。 基于 模型 的 求解 是 指 对 输入 的 数据 在 分 析 后 找 出 相关 的 规律 , 并 利用 此 规律 获取 提高 解 
决 问题 的 能 力 。 


了 ,2 机 器 学 习 基本 算法 


前 面 已 经 介绍 过 , 根据 不 同 的 计算 结果 要 求 ,机 器 学 习 可 分 成 若干 种 。 这 些 不 同 的 目的 决 
定 了 机 器 学 习 在 实际 应 用 中 可 分 成 不 同 模型 和 分 类 。 

前 面 已 经 提 到 ， 机 器 学 习 还 是 一 门 涉及 多 个 领域 的 交叉 学 科 ， 也 是 多 个 领域 的 新 兴学 科 ， 
因此 ， 它 在 实践 中 会 用 到 不 同学 科 中 经 典 的 研究 方法 ， 即 算法 。 


3.2.1 机 器 学 习 的 算法 流程 


首先 需要 知道 的 是 ， 对 于 机 器 学 习 来 说 ， 一 个 机 器 学 习 的 过 程 是 一 个 完整 的 项 目 周期 ， 其 
中 包括 数据 的 采集 、 数 据 的 特征 提取 与 分 类 ， 以 及 之 后 采用 何 种 算法 去 创建 机 器 学 习 模型 ， 从 
而 获得 预测 数据 。 整 个 机 器 学 习 的 算法 流程 如 图 3-2 所 示 。 
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图 3-2 机 器 学 习 的 算法 流程 


在 一 个 机 器 学 习 的 完整 流程 中 , 整个 机 器 学 习 程序 会 使 用 数据 去 创建 一 个 能 够 对 数据 进行 
有 效 处 理 的 学 习 “ 模 型 ”。 这 个 模型 可 以 动态 地 对 本 身 进 行 调整 和 反馈 ， 从 而 较 好 地 对 未 知 数 
据 进 行 分 类 和 处 理 。 
-个 完整 的 机 器 学 习 项 目 包含 以 下 内 容 : 
@ 输入 数据 : 通过 自然 采集 的 数据 集 ， 包含 被 标识 的 和 未 被 标识 的 部 分 ,作为 机 器 学 习 
的 最 基础 部 分 。 
@ ”特征 提取 : 通过 多 种 方式 对 数据 的 特征 值 进行 提取 。 一 般 而 言 , 包含 特征 越 多 的 数据 ， 
机 器 学 习 设 计 出 的 模型 就 越 精 确 , 处 理 难度 也 越 大 。 因此 恰当 地 寻找 一 个 特征 大 小 的 
平衡 点 是 非常 重要 的 。 
@ ”模型 设计 : 模型 设计 是 机 器 学 习 中 最 重要 的 部 分 , 根据 现 有 的 条 件 , 选择 不 同 的 分 类 ， 
采用 不 同 的 指标 和 技术 。 模型 的 训练 更 多 的 是 依靠 数据 的 收集 和 特征 的 提取 , 这 点 需 
要 以 上 各 部 分 的 支持 。 
@ ”数据 预测 : 通过 对 已 训练 模式 的 认识 和 使 用 ,使 得 学 习 机 器 能 够 用 于 研究 开发 、 模 拟 
和 扩展 人 的 多 重 智能 的 方法 、 理 论 和 技术 。 


整个 机 器 学 习 的 流程 是 一 个 完整 的 项 目 生 命 周 期 ， 每 一 步 都 是 以 上 一 步 为 基础 进行 的 。 


3.2.2 ”基本 算法 的 分 类 
根据 输入 的 不 同 数据 和 对 数据 的 处 理 要 求 , 机 器 学 习 会 选择 不 同 种 类 的 算法 对 模型 进行 训 
练 。 算 法 训练 的 选择 没有 特定 的 模式 ， 一 般 而 言 ， 只 需要 考虑 输入 的 数据 形式 和 复杂 度 以 及 使 
用 者 模型 的 使 用 经 验 ， 之 后 据 此 进行 算法 训练 ， 从 而 获得 更 好 的 学 习 结果 。 
根据 基本 算法 的 训练 模式 ， 可 将 算法 分 成 以 下 几 类 (图 3-3) : 
@ 无 监督 学 习 : 完全 黑 盒 训练 的 一 种 训练 方法 , 对 于 输入 的 数据 在 运行 结束 前 没有 任何 
区 别 和 标识 ， 也 无 法 进行 分 类 。 完 全 由 机 器 对 数据 进行 识别 和 分 类 ， 形 成 特有 的 分 析 
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模型 。 训 练 过 程 完 全 没有 任何 指导 ， 分 析 结 果 也 是 不 可 控 的 。 

@ 有 监督 学 习 : 输入 的 数据 被 人 为 地 分 类 ,被 人 为 地 标记 和 识别 。 通 过 对 人 为 标识 的 数 
据 进行 学 习 , 不断 修正 和 改进 模型 ,使 模型 能 够 对 给 定 的 标识 后 的 数据 进行 正确 分 类 ， 
达到 分 类 的 标准 。 

@ 半 监 督学 习 : 通过 混合 有 标识 数据 和 无 标识 数据 , 创建 同一 模型 对 数据 进行 分 析 和 识 
别 ， 算 法 的 运行 介 于 有 监督 和 无 监督 之 间 ， 最 终 使 得 全 部 输入 数据 能 够 被 区 分 。 半 监 
督学 习 主要 用 于 有 特征 值 缺 失 的 数据 分 析 。 

@ ”强化 学 习 : 通过 输入 不 同 的 标识 数据 ， 使 用 已 有 的 机 器 学 习 数 据 模型 ， 进 行 学 习 、 反 
馈 并 修正 现 有 模型 ， 从 而 建立 一 个 新 的 能 够 识别 输入 数据 的 模型 算法 。 


3-3 ”机 器 学 习 的 算法 分 类 


从 图 3-3 可 以 看 出 , 不同 的 算法 有 不 同 的 目的 和 要 求 。 机 器 学 习 在 实际 使 用 时 有 很 多 算法 
可 供 选择 ， 而 不 同 的 算法 又 有 很 多 的 修正 和 改变 。 对 于 某 个 特定 的 问题 ， 选 择 一 个 符合 数据 规 
则 的 算法 是 很 困难 的 。 

一 般 目 前 用 得 比较 多 的 是 有 监督 学 习 和 无 监督 学 习 , 但 是 由 于 大 数据 的 普及 , 更 多 的 数据 
会 产生 大 量 的 特征 值 缺失 ， 因 此 未 来 的 一 段 时 间 ， 半 监督 学 习 逐 渐变 得 热门 起 来 。 






有 对 于 大 多 数 算法 来 说 , 通过 机 器 学 习 都 可 以 较 好 地 实现 一 个 数据 的 分 类 和 拟 合 的 模型 ,其 
[ 差别 主要 集中 在 功能 和 形式 上 。 做 好 数据 的 分 类 ， 基 本 可 以 较 好 地 实现 学 习 目 的 。 











可 .算法 的 理论 基础 


对 于 机 器 学 习 来 说 , 最 重要 的 部 分 是 两 个 , 即 数据 的 收集 以 及 算法 的 设计 。 在 实际 应 用 中 ， 
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数据 收集 一 般 要 求 有 具体 的 格式 和 要 求 , 因此 对 其 限制 较 多 。 而 对 算法 的 选择 则 较为 灵活 , 可 
以 根据 需要 选择 适合 数据 流程 的 算法 ， 从 而 进一步 训练 模型 。 


3.3.1 小 学 生 的 故事 一 一 求 圆 的 面积 


圆 是 自然 界 中 比较 特殊 的 图 形 ， 从 古 至 今世 界 上 对 其 进行 的 研究 都 非常 深刻 , 其 至 于 将 其 
视 作 神 圣 的 图 形 进行 膜拜 。 而 对 于 数学 家 来 说 , 求 圆 的 面积 , 确实 是 对 数学 家 能 力 的 一 次 重要 
考验 (图 3-4) 。 





3-4 ”这 个 圆 的 面积 是 多 少 


直接 计算 圆 的 面积 很 难 。 为 了 解决 问题 ， 数 学 家 们 想 了 很 多 办 法 ， 其 中 最 简单 的 是 使 用 替 
代 法 ， 即 寻找 一 个 矩形 ， 使 其 面积 能 够 等 于 或 者 近似 等 于 圆 的 面积 。 

我 国 古代 的 数学 家 祖冲之 ， 从 圆 内 接 正 六 边 形 入 手 ， 让 边 数 成 倍增 加 ,用 圆 内 接 正 多 边 形 
的 面积 去 逼近 圆 面积 ; 古 希腊 的 数学 家 ， 从 圆 内 接 正 多 边 形 和 外 切 正 多 边 形 同 时 入 手 ， 不 断 增 
加 它们 的 边 数 ， 从 里 、 外 同时 去 逼近 圆 面积 ; 古 印度 的 数学 家 ， 采 用 类 似 切 西瓜 的 办 法 ， 把 圆 
切 成 许多 小 办， 再 把 这 些小 办 对 接 成 一 个 长 方形 ， 用 长 方形 的 面积 去 代 检 圆 面积 (图 3-5) 。 





一 一 any 
圆 形 4 份 8 份 
WW 


图 3-5 求解 圆 的 面积 


众多 的 古代 数学 家 化 费 苦心 ,巧妙 构思 , 为 求 圆 面 积 做 出 了 十 分 宝贵 的 贡献 ,为 后 人 解决 
这 个 问题 开辟 了 道路 。 他 们 的 方法 无 外 乎 使 用 近似 的 方法 , 将 一 个 圆 切 分 成 若干 小 等 份 , 组 合 
成 一 个 矩形 来 蔡 代 圆 。 

这 也 是 微 积 分 的 数学 基础 。 


3.3.2 ”机 器 学 习 基 础 理论 一 一 函数 逼近 
对 于 机 器 学 习 来 说 ， 机 器 学 习 算法 的 理论 基础 即 函 数 逼近 。 


27 





TensorFlow 深度 学 习 应 用 实践 


在 机 器 学 习 中 , 能 够 对 标识 或 未 标识 的 数据 进行 分 类 是 机 器 学 习 的 最 终 目 的 。 分 类 的 确定 
是 由 学 习 模型 所 创建 的 ， 而 模型 的 建立 则 又 是 根据 算法 的 不 同 去 拟 合 和 创建 。 

在 机 器 学 习 的 理论 中 ,对 于 数据 模型 来 说 ,找到 一 个 完全 符合 数据 分 类 的 模型 是 不 可 能 的 ， 
因此 ， 借 助 于 更 多 更 细 的 对 数据 的 划分 去 创建 一 个 可 以 划分 数据 的 模型 是 可 行 的 。 

3-6 展现 了 一 个 对 不 规则 曲线 求 面 积 的 方法 。 对 于 不 规则 的 面积 ， 一 般 情 况 下 很 难 直接 
计算 到 面积 的 准确 大 小 。 但 可 以 通过 变相 的 ,将 更 多 的 小 矩形 组 合 在 一 起 ， 求 出 小 矩形 的 面积 
之 和 时 ， 近 似 地 视 为 曲线 面积 之 和 。 

这 就 是 函数 逼近 的 方法 。 


i 
-一 一 一 


图 3-6 面积 函数 逼近 图 


一 般 来 说 ,函数 逼近 在 机 器 学 习 中 是 一 个 巨大 分 类 ， 其 中 包含 着 多 种 拟 合 方法 和 算法 。 图 
3-7 展示 了 机 器 学 习 主要 算法 的 分 类 。 











3-7 ”机 器 学 习 基本 算法 


机 器 学 习 的 基本 算法 内 容 包含 多 种 机 器 学 习 的 成 熟 算 法 , 使 用 范围 也 相当 广泛 , 在 本 书 的 
后 续 章节 中 会 逐一 进行 介绍 。 一 般 来 说 ， 函 数 逼 近 问 题 被 划分 在 预测 算法 之 中 , 主要 应 用 在 自 
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然 语言 处 理 、 网 络 搜索 服务 以 及 精准 推荐 等 方面 。 
本 节 主 要 介绍 机 器 学 习 中 的 函数 逼近 ， 其 中 最 常用 、 最 重要 的 方法 被 称 为 回归 算法 。 





了 .4 回归 算法 


据说 “回归 ”这 个 词 最 早出 现 于 一 位 英国 遗传 学 家 的 研究 工作 ， 他 在 平常 的 工作 中 发 现 一 
个 奇怪 的 现象 ， 一 般 的 孩子 身高 与 父母 的 身高 并 不 成 正比 ， 即 并 不 是 父母 越 高 ， 孩 子 越 高 。 

他 经 过 长 时 间 的 研究 发 现 , 若 父 母 的 身高 高 于 一 般 的 社会 平均 人 群 身高 , 则 其 子女 具有 较 
大 可 能 变 得 矮小 , 即 会 比 其 父母 的 身高 矮 一 些 , 更 加 向 社会 的 普通 身高 靠拢 。 若 父母 身高 低 于 
社会 人 群 平均 身高 ， 则 其 子女 倾向 于 变 高 ， 即 更 接近 于 大 众 平 均 身高 。 此 现象 在 其 论文 中 被 称 
为 回归 现象 。 
回归 也 是 机 器 学 习 的 基础 。 本 节 中 将 要 介绍 两 种 主要 算法 ， 即 线性 回归 和 届 辑 回归 。 这 是 
回归 算法 中 最 重要 的 部 分 ， 也 是 机 器 学 习 的 核心 算法 。 


3.4.1 函数 逼近 经 典 算法 一 一 线性 回归 

本 书 笔者 在 前 面 已 经 提 到 , 在 本 书 中 将 尽量 少 用 数学 公式 而 采用 浅显 易 懂 的 方法 去 解释 一 
些 机 器 学 习 中 用 到 的 基本 理论 和 算法 。 本 节 的 难度 略 有 提高 。 

首先 对 于 回归 的 理论 解释 : 回归 分 析 (regression analysis) 是 确定 两 种 或 两 种 以 上 变数 间 
相互 依赖 的 定量 关系 的 一 种 统计 分 析 方 法 。 按照 自 变量 和 因 变 量 之 间 的 关系 类 型 ， 可 分 为 线性 
回归 分 析 和 非 线 性 回归 分 析 。 如 果 在 回归 分 析 中 ， 只 包括 一 个 自 变 量 和 一 个 因 变 量 ， 且 二 者 的 
关系 可 用 一 条 直线 近似 表示 , 则 称 为 一 元 线性 回归 分 析 。 如果 回归 分 析 中 包括 两 个 或 两 个 以 上 
的 自 变 量 ， 且 因 变 量 和 自 变 量 之 间 是 线性 关系 ， 则 称 为 多 元 线性 回归 分 析 。 

换 句 话 说, 回归 算法 是 一 种 基于 已 有 数据 的 预测 算法 , 其 目的 是 研究 数据 特征 因子 与 结果 
之 间 的 因果 关系 。 举 个 经 典 的 例子 ， 表 3-1 表示 某 地 区 房屋 面积 与 价格 之 间 的 一 个 对 应 表 。 

















表 3-1 某 地 区 房屋 面积 与 价格 对 应 表 
价格 ( 千 元 ) 面积 〈 平 方 米 ) 











为 了 简单 起 见 ， 在 该 表 中 只 计算 了 一 个 特征 值 (房屋 的 面积 ) 以 及 一 个 结果 数据 (房屋 的 
价格 ) ， 因 此 可 以 使 用 数据 集 构建 一 个 直角 坐标 系 ， 如 图 3-8 所 示 。 
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图 3-8 房屋 面积 与 价格 回归 表 
由 图 3-8 中 可 知 , 数据 集 的 目的 是 建立 一 个 线性 方程 组 , 能 够 对 所 有 的 点 距离 无 限 地 接近 ， 
即 价格 能 够 根据 房屋 的 面积 大 小 决定 。 
同时 可 以 据 此 得 到 一 个 线性 方程 组 : 
h(x)=0 +Ox 
更 进一步 ,如果 将 其 设计 成 为 一 个 多 元 线性 回归 的 计算 模型 ,例如 添加 一 个 新 的 变量 , 独 
立 卧室 数 ， 那 么 数据 表 可 以 表述 为 表 3-2 所 示 。 


表 3-2 某 地 区 房屋 面积 与 价格 对 应 表 
价格 ( 千 元 ) 面积 《平方 米 ) 卧室 〈 个 ) 
200 
165 





那么 据 此 得 到 的 线性 方程 组 为 : 
ho(x)=0 +OXx+Ox 





回归 计算 的 建 模 能 力 是 非常 强大 的 。 其 可 以 根据 每 个 特征 去 计算 结果 , 能 够 较 好 地 体现 特 
征 值 的 影响 。 同时 从 上 面 的 内 容 可 知 ,每 个 回归 模型 都 可 以 由 一 个 回归 函数 表现 出 来 , 较 好 地 
表现 出 特征 与 结果 之 间 的 关系 。 

以 上 内 容 为 初等 数学 内 容 , 读者 可 以 较 好 地 掌握 , 但 是 不 要 认为 这 些 内 容 不 重要 , 这 是 机 
器 学 习 中 线性 回归 的 基础 。 
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3.4.2 ”线性 回归 的 姐妹 一 一 逻辑 回归 

我 们 在 前 面 已 经 提 到 ,在 本 书 中 将 最 少 地 使 用 数学 公式 而 采用 浅显 易 懂 的 方法 去 解释 一 些 
机 器 学 习 中 用 到 的 基本 理论 和 算法 。 本 小 节 难 度 较 大 ， 读 者 可 以 不 看 数学 理论 部 分 。 

对 于 逻辑 回归 来 说 , 逻辑 回归 主要 应 用 在 分 类 领域 , 主要 作用 是 对 不 同性 质 的 数据 进行 分 
类 标识 。 逻 辑 回归 是 在 线性 回归 的 算法 上 发 展 起 来 的 ， 它 提供 一 个 系数 9， 并 对 其 进行 求 值 。 
基于 这 个 ， 可 以 较 好 地 提供 理论 支持 和 不 同 算法 ， 轻 松 地 对 数据 集 进 行 分 类 。 

图 3-9 表示 房屋 面积 与 价格 回归 表 ， 在 这 里 ， 使 用 逻辑 回归 算法 对 房屋 价格 进行 了 分 类 。 
可 以 看 到 ， 其 被 较 好 地 分 成 了 两 个 部 分 ， 这 也 是 在 计算 时 要 求 区 分 的 内 容 。 











图 3-9 房屋 面积 与 价格 回归 表 
逻辑 回归 的 具体 公式 如 下 : 





1 
/0= l+exp(-0 x) 
与 线性 回归 相同 ， 这 里 的 9 是 逻辑 回归 的 参数 ， 即 回归 系数 。 如 果 再 将 其 进一步 变形 ， 使 
其 能 够 反映 二 元 分 类 问题 的 公式 ， 则 公式 为 : 
=1|x,0)= 一 一 一 一 一 
/0=1I%0 1+exp(-O7 x) 
这 里 的 y 值 由 己 有 的 数据 集中 的 数据 和 9 共同 决定 , 而 实际 上 这 个 公式 求 的 是 在 满足 一 定 
条 件 下 最 终 取 值 的 对 数 概率 , 即 通 过 数据 集 的 可 能 性 的 比值 做 对 数 变 换 得 到 。 通 过 公式 表示 为 : 
f=1|x,0) 
log(%) = n( 一 一 一) 一 史上 GD 十 OO 十 二 OO 
jy=0lxg 
通过 这 个 逻辑 回归 倒 推 公式 可 以 看 到 ,最 终 逻 辑 回 归 的 计算 可 以 转化 成 由 数据 集 的 特征 向 
量 与 系数 9 共同 完成 ， 然 后 求 得 的 加 权 和 ， 得 到 最 终 的 判断 结果 。 
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由 前 面 的 数学 分 析 来 看 , 最 终 逻 辑 回 归 问 题 又 称 为 对 系数 9 求 值 的 问题 。 这 里 读者 只 需要 
知道 原理 即 可 。 


可 .与 ”机 器 学 习 的 其 他 算法 决策 树 


除了 回归 算法 外 ， 机 器 学 习 还 有 其 他 较为 常用 的 学 习 算 法 ， 这 里 只 介绍 一 个 ， 即 决策 树 算 
法 。 

决策 树 是 在 已 知 各 种 情况 发 生 概率 的 基础 上 , 通过 构成 决策 树 来 求 取 净 现 值 的 期 望 值 大 于 
等 于 零 的 概率 , 评价 项 目 风险 , 判断 其 可 行 性 的 决策 分 析 方法 ， 是 直观 运用 概率 分 析 的 一 种 图 
解法 。 由 于 这 种 决策 分 支 画 成 图 形 很 像 一 棵 树 的 枝 干 ， 故 称 决策 树 。 本 节 主 要 介绍 决策 树 的 构 
建 算法 和 运行 示例 。 


3.5.1 水 晶 球 的 秘密 

相信 读者 都 玩 过 这 样 一 个 游戏 。 一 个 神秘 的 水 晶 球 摆 放 在 桌子 中 央 , 一 个 低沉 的 声音 (一 
般 是 女性 ) 会 问 你 许多 如 下 问题 。 

问 : 你 在 想 一 个 人 ， 让 我 猜 猜 这 个 人 是 男性 ? 

答 : 不 是 的 。 

问 : 这 个 人 是 你 的 亲属 ? 

答 : 是 的 。 

问 : 这 个 人 比 你 年 长 。 

答 : 是 的 。 

问 : 这 个 人 对 你 很 好 ? 

答 : 是 的 。 

那么 聪明 的 读者 应 该 能 猜 得 出 来 , 这 个 问题 的 最 终 答案 是 “母亲 ”。 这 是 一 个 常见 的 游戏 ， 
如 果 将 其 作为 一 个 整体 去 研究 ， 整 个 系统 的 结构 就 如 图 3-10 所 示 。 





图 3-10 水 晶 球 的 秘密 


如 果 读 者 使 用 过 项 目 流程 图 ， 那 么 可 以 知道 ,系统 最 高 处 代表 根 节点 , 是 系统 的 开始 。 整 
个 系统 类 似 于 一 个 项 目 分 解 流程 图 , 其 中 每 个 分 支 和 树叶 代表 一 个 分 支 向 量 , 每 个 节点 代表 一 
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个 输出 结果 或 分 类 。 

决策 树 用 来 预测 的 是 一 个 固定 的 对 象 ， 从 根 到 叶 节 点 的 一 条 特定 路 线 就 是 一 个 分 类 规则 ， 
决定 这 一 个 分 类 算法 和 结果 。 

由 图 3-10 可 以 看 到 ， 决 策 树 的 生成 算法 是 从 根部 开始 ， 输 入 一 系列 带 有 标签 分 类 的 示例 
(向 量 ), 从 而 构造 出 一 系列 的 决策 节点 。 其 节点 又 称 为 逻辑 判断 , 表示 该 属性 的 某 个 分 支 ( 属 
性 ) ， 供 下 一 步 继续 判断 ， 一 般 有 几 个 分 支 就 有 几 条 有 向 的 线 作为 类 别 标记 。 


3.5.2 决策 树 的 算法 基础 一 一 信息 

首先 介绍 决策 树 的 理论 基础 ， 即 信息 炉 。 

信息 炉 指 的 是 对 事件 中 不 确定 的 信息 的 度量 。 在 一 个 事件 或 者 属性 中 ,信息 炉 越 大 ,其 含 
有 的 不 确定 信息 越 大 , 对 数据 分 析 的 计算 就 越 有 益 。 因 此 总 是 选择 当前 事件 中 拥有 最 高 信息 炉 
的 那个 属性 作为 待 测 属性 。 

说 了 这 么 多 ， 问 题 来 了 ， 如 何 计算 一 个 属性 中 所 包含 的 信息 炉 ? 

在 一 个 事件 中 , 计算 各 个 属性 的 不 同 信息 炉 , 需要 考虑 和 掌握 的 是 所 有 属性 可 能 发 生 的 平 
均 不 确定 性 。 如 果 其 中 及 种 属性 ， 其 对 应 的 概率 为 Pl，P2，P3…Pn， 且 各 属性 之 间 出 现时 
彼此 相互 独立 无 相关 性 ， 此 时 可 以 将 信息 炉 定 义 为 单个 属性 的 对 数 平均 值 ， 即 : 


E(P)=E(-logp)=-2 plogp, 

为 了 更 好 地 解释 信息 炳 的 含义 ， 这 里 举 一 个 例子 。 

小 明 喜 欢 出 去 玩 ,大 多 数 的 情况 下 他 会 选择 天 气 好 的 条 件 下 出 去 ， 但 是 有 时 候 也 会 选择 天 
气 差 的 时 候 出 去 ， 而 天 气 的 标准 又 有 如 下 4 个 属性 : 

@ 温度 

起 风 

@ 本 十 

@ 湿度 

为 了 简便 起 见 ， 这 里 每 个 属性 只 设置 两 个 值 ，0 和 1: 温度 高 用 1 表示 ， 低 用 0 表示 ; 起 
风 是 用 1 表示 ， 没 有 用 0， 下 雨 用 1 表示 ， 没 有 用 0， 湿 度 高 用 1 表示 ， 低 用 0。 表 3.3 给 出 
了 一 个 具体 的 记录 。 

表 3-3 是 否 出 去 玩 的 记录 


出 去 玩 (out) 起 风 (wind) 湿度 (humidity) 温度 (temperature) 
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本 例子 需要 分 别 计算 各 个 属性 的 炉 ， 这 里 以 是 否 出 去 玩 的 炉 计 算 为 例 演示 计算 过 程 。 
根据 公式 首先 计算 出 去 玩 的 概率 ， 其 有 2 个 不 同 的 值 : 0 和 1。 例如 ， 第 一 列 温度 标签 有 
两 个 不 同 的 值 ，0 和 1。 其 中 ，1 出 现 了 4 次， 而 0 出 现 了 2 次 。 





4 4 ~ - 
E(0o)==— 局 | ,三 一 (一 log, 一 ) 一 (一 log, 一 ) = 0.918 
(0) = -plogp, (Flog: PD - (Flog: 2) 


即 出 去 玩 〈out)》 的 信息 炳 为 0.918。 与 此 类 似 ， 可 以 计算 不 同属 性 的 信息 和 ， 即 : 


3.5.3 决策 树 的 算法 基础 一 一 ID3 算法 


ID3 算法 是 基于 信息 入 的 一 种 经 典 决策 树 构建 算法 。 根 据 百度 百科 的 解释 ，ID3 算法 是 一 
种 贪心 算法 ， 用 来 构造 决策 树 。ID3 算法 起 源 于 概念 学 习 系统 〈CLS) ， 以 信息 炉 的 下 降 速度 
为 选取 测试 属性 的 标准 , 即 在 每 个 节点 选取 还 尚未 被 用 来 划分 的 具有 最 高 信息 增益 的 属性 作为 
划分 标准 ， 然 后 继续 这 个 过 程 ， 直 到 生成 的 决策 树 能 完美 分 类 训练 样 例 。 

因此 可 以 说 ，ID3 算法 的 核心 就 是 信息 增益 的 计算 。 

信息 增益 指 的 是 一 个 事件 中 前 后 发 生 的 不 同 信息 之 间 的 差 值 。 换 名 话说 , 在 决策 树 的 生成 
过 程 中 ， 属 性 选择 划分 前 和 划分 后 不 同 的 信息 炉 差 值 。 用 公式 可 表示 为 : 


GainB,B)=EB)-EL) 
表 3-3 构建 的 最 终 决策 是 要 求 确定 小 明 是 否 出 去 玩 , 因此 可 以 将 出 去 玩 的 信息 坑 作为 最 后 
的 数值 ， 而 每 个 不 同 的 属性 被 其 相 减 ， 从 而 获得 对 应 的 信息 增益 ， 其 结果 如 下 ; 





通过 计算 可 得 ， 其 中 信息 增益 最 大 的 是 “起 风 ”， 其 首先 被 选中 作为 决策 树 根 节点 ， 之 后 
对 于 每 个 属性 ， 继 续 引入 分 支 节点 ， 从 而 可 得 一 个 新 的 决策 树 ， 如 图 3-11 所 示 。 


第 3 章 深度 学 习 的 理论 基础 一 一 机 器 学 习 

































































图 3-11 第 一 个 增益 决定 后 的 分 步 决策 树 


其 中 , 决策 树 左边 节点 是 属性 中 wind 为 1 的 所 有 其 他 属性 , 而 wind 属性 为 0 的 被 分 成 另 
外 一 个 节点 。 之 后 继续 仿照 计算 信息 增益 的 方法 依次 对 左右 的 节点 进行 递归 计算 , 最 终结 果 如 


图 3-12 所 示 。 
~、 否 (wind-0) 
高 (temp=1) 低 (temp=0) 是 (aeDA 二 
a 
4 








低 高 
(humidity=0 Chumidity=1) 
WD Eta 


图 3-12 ”出 去 玩 的 决策 树 
从 中 可 以 看 到 , 根据 信息 增益 的 计算 , 可 以 很 容易 地 构建 一 个 将 信息 炉 降 低 的 决策 树 ， 从 
而 使 得 不 确定 性 达到 最 小 。 
通过 上 述 分 析 可 以 看 到 , 对 于 决策 树 来 说 , 其 模型 的 训练 是 固定 的 ， 因此 生成 的 决策 树 也 
是 一 定 的 ; 而 其 中 不 同 的 地 方 在 于 训练 的 数据 集 不 同 ,这 点 是 需要 注意 的 。 在 本 书 的 后 面 , 会 
写 出 一 个 决策 树 的 代码 实现 ， 请 读者 注意 。 


本 .本 章 小 结 


在 前 面 的 内 容 中 介绍 了 机 器 学 习 的 分 类 和 常用 算法 。 大 家 对 最 常用 的 算法 原理 有 了 一 定 的 
理解 。 除 了 最 基本 的 算法 ， 机 器 学 习 在 实际 应 用 中 还 有 很 多 其 他 方面 需要 注意 。 
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机 器 学 习 算 法 的 分 类 是 多 种 多 样 的 , 可 采用 的 算法 也 很 多 , 在 实际 工作 中 采用 何 种 算法 是 
一 个 令 程 序 设计 人 员 非 常 头疼 的 问题 。 

在 前 文 介绍 机 器 学 习 时 已 经 举 了 例子 , 使 用 线性 回归 可 以 量化 地 计算 出 房屋 面积 、 卧 室 与 
房屋 价格 之 间 的 关系 。 也 许 这 个 关系 不 太 精确 ， 但 是 可 以 较 好 地 反映 出 彼此 之 间 是否 有 联系 ， 
以 更 好 地 帮助 读者 将 一 些 不 能 够 直接 反映 的 量 转化 为 量化 处 理 。 

除了 一 般 性 的 训练 方法 外 , 线性 回归 对 于 特征 值 的 选择 也 是 较为 简单 的 。 可 以 选择 一 般 性 

的 数据 作为 其 计算 的 特征 值 ,在 计算 时 也 应 该 选择 比较 容易 计算 的 拟 合 方程 来 构建 机 器 学 习 模 
型 。 线 性 回归 均 能 够 满足 这 些 要 求 。 
回 到 前 面 介绍 的 线性 回归 算法 , 其 好 处 在 于 线性 回归 的 计算 速度 非常 快 , 一 般 模 型 建立 的 
时 间 可 以 压缩 到 几 分 钟 ， 甚 至 于 数 百 吉 字 节 的 网 络 大 数据 也 可 以 在 数 小 时 完成 , 非常 有 利于 借 
助 分 布 式 系统 对 大 数据 进行 处 理 。 其 次 , 对 于 一 些 问 题 的 求解 , 线性 回归 方法 能 够 比 其 他 算法 
有 更 好 的 性 能 。 综合 起 来 看 ,一 些 问 题 并 不 需要 复杂 的 算法 模型 ,而 是 需要 对 数据 的 复杂 度 和 
数据 集 的 大 小 进行 综合 考虑 。 所 以 ， 线 性 回归 模型 能 够 取得 更 好 的 整体 模型 算法 效果 。 
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前 面 章节 中 对 Python 的 安装 做 了 一 个 基本 的 介绍 ， 并 且 笔 者 建议 读者 使 用 PyCharm 免费 
版 作为 使 用 Python 编写 程序 的 编译 器 。 相 对 于 使 用 控制 台 或 自 带 的 编译 器 ， 可 以 更 加 直观 和 
明晰 化 地 对 所 构建 的 工程 做 出 层次 安排 。 

本 章 将 使 用 Python 对 数据 的 处 理 和 可 视 化 进行 介绍 ， 主 要 向 读者 介绍 Python 的 使 用 ， 并 
对 第 3 章 中 深度 学 习 使 用 的 一 些 算 法 做 出 复写 , 同时 也 向 读者 说 明 第 三 方 类 库 的 使 用 。 对 于 大 
多 数 的 Python 程序 设计 ， 建 议 读 者 使 用 已 有 的 类 库 对 问题 进行 解决 ， 而 不 是 自行 编写 相应 的 
代码 。 这 是 初学 者 非常 容易 犯 的 错误 ， 对 于 Python 来 说 ， 大 多 数 类 库 都 是 在 底层 使 用 效率 更 
高 的 C 语言 实现 的 ， 并 且 由 经 验 丰富 的 程序 设计 人 员 编写 ， 因 此 不 建议 读者 自行 设计 和 完成 
相应 的 程 

“人 生 苦 短 ， 我 用 Python! 编程 复杂 ， 请 用 类 库 ! ” 








从 小 例子 起 步 一 一 NumpPy 的 初步 使 用 


从 小 例子 起 步 ， 本 节 将 介绍 NumPy 的 基础 使 用 。 


4.1.1 数据 的 矩阵 化 

对 于 机 器 学 习 来 说 , 数据 是 一 切 的 基础 。 而 一 切 数据 又 不 是 单一 的 存在 ,其 构成 往往 由 很 
多 的 特征 值 决 定 。 表 4-1 在 第 3 章 用 以 计算 回归 分 析 的 房屋 面积 与 价格 表 中 加 上 了 每 个 房屋 中 
地 下 室 的 有 无 。 





表 4-1 某 地 区 房屋 面积 与 价格 对 应 表 
价格 ( 千 元 ) 面积 (平方 米 ) 卧室 (个 ) 
105 
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表 4-1 是 数据 的 一 般 表 示 形 式 ， 对 于 机 器 学 习 的 过 程 来 说 ， 这 是 不 可 辨识 的 数据 ， 因 此 需 
要 对 其 进行 调整 。 
常用 的 机 器 学 习 表 示 形 式 为 数据 和 矩阵， 可 以 将 表 4-1 表示 为 一 个 专门 的 矩阵 形式 ， 见 表 
4-2。 
表 4-2 某 地 区 房屋 面积 与 价格 计算 矩阵 


Bedroom Basement 








在 表 4-2 中 ， 一 行 代表 一 个 单独 的 房屋 价格 和 对 应 的 特征 属性 。 第 一 列 是 ID， 即 每 行 的 
标签 。 标签 是 独一无二 的 , 一 般 不 会 有 重复 现象 产生 。 第 二 列 是 价格 , 一 般 被 称 为 矩阵 的 目标 。 
目标 可 以 是 单纯 的 数字 ， 也 可 以 是 布尔 变量 或 者 一 个 特定 的 表示 。 表 4-2 中 的 标签 是 一 个 数字 
标签 。 第 2、3、4、5 列 是 属性 值 ， 也 是 标签 所 对 应 的 特征 值 ， 根 据 此 特征 值 的 不 同 ， 每 行 所 
对 应 的 目标 也 有 所 不 同 。 

不 同 的 ID 用 于 表示 不 同 的 目标 。 一 般 来 说 ， 机 器 学 习 的 最 终 目 的 就 是 使 用 不 同 的 特征 属 
性 对 目标 进行 区 分 和 计算 。 已 有 的 目标 是 观察 和 记录 的 结果 , 而 机 器 学 习 的 过 程 就 是 创建 一 个 
可 进行 目标 识别 的 模型 的 过 程 。 

建立 模型 的 过 程 称 为 机 器 学 习 的 训练 过 程 ,其 速度 和 正确 率 主要 取决 于 算法 的 选择 , 而 算 
法 是 目标 和 属性 之 间 建 立 某 种 一 一 对 应 关系 的 过 程 , 这 点 在 前 面 介绍 机 器 学 习 过 程 的 时 候 已 经 
有 所 介绍 。 

继续 回 到 表 4-2 的 矩阵 中 。 通 过 观察 可 知 ， 和 矩阵 中 所 包含 的 属性 有 两 种 ,分别 是 数值 型 变 
量 和 布尔 型 变量 。 其 中 , 第 2、3、4 列 是 数值 变量 , 这 也 是 机 器 学 习 中 最 常 使 用 和 辨识 的 类 型 ; 
第 5 列 是 布尔 型 变量 ， 用 以 标识 对 地 下 室 存 在 的 判定 。 

这 样 做 的 好 处 在 于 , 机 器 学 习 在 工作 时 根据 采用 的 算法 进行 建 模 , 算法 的 描述 只 能 对 数值 
型 和 布尔 型 变量 进行 处 理 , 而 对 于 其 他 类 型 的 变量 处 理 相对 较 少 。 即使 后 文 有 针对 文字 进行 处 
理 的 机 器 学 习 模 型 ， 其 本 质 也 是 将 文字 转化 成 矩阵 向 量 进 行 处 理 。 这 点 在 后 文 继续 介 绍 。 

当 机 器 学 习 建 模 的 最 终 目标 是 求 得 一 个 具体 数值 时 , 即 目 标 是 一 个 数字 , 那么 机 器 学 习 建 
模 的 过 程 基本 上 可 以 被 转化 为 回归 问题 。 差 别 在 于 是 逻辑 回归 还 是 线性 回归 。 

目标 为 布尔 型 变量 时 , 问题 大 多 数 被 称 为 分 类 问题 , 而 常用 的 建 模 方法 是 第 3 章 中 使 用 的 
决策 树 方法 。 一般 来 说 ， 当 分 类 的 目标 是 两 个 的 时 候 ， 问 题 被 转化 为 二 元 分 类 ; 而 分 类 的 结果 
多 于 两 个 的 时 候 ， 分 类 称 为 多 元 分 类 。 

许多 情况 下 , 机 器 学 习 建 模 和 算法 的 设计 是 由 程序 设计 和 研究 人 员 所 选择 的 , 而 具体 采用 
何 种 算法 和 模型 也 没有 一 定 的 要 求 。 回归 问题 可 以 被 转化 为 分 类 问题 , 而 分 类 问题 往往 也 可 以 
由 建立 的 回归 模型 解决 。 这 点 没有 特定 的 要 求 。 
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4.1.2 数据 分 析 


对 于 数据 来 说 ， 在 进行 机 器 学 习 建 模 之 前 ， 需 要 对 数据 进行 基本 的 分 析 和 处 理 。 

从 图 4-1 可 以 看 到 ， 对 于 数据 集 来 说 ， 在 进行 数据 分 析 之 前 ， 需 要 知道 很 多 东西 。 首 先 需 
要 知道 的 是 一 个 数据 集 的 数据 多 少 和 每 个 数据 所 拥有 的 属性 个 数 ,对 于 程序 设计 人 员 和 科研 人 
员 来 说 ， 这 些 都 是 简单 的 事 ; 但 是 对 于 机 器 学 习 的 模型 来 说 ， 这 些 是 必 不 可 少 的 。 





图 4-1 数据 分 析 的 要 求 


除 此 之 外 ,对 于 数据 集 来 说 , 缺失 值 的 处 理 也 是 一 个 非常 重要 的 过 程 。 最 简单 的 处 理 方法 
是 对 有 缺失 值 的 数据 进行 整体 删除 。 问 题 在 于 , 机 器 学 习 的 数据 往往 来 自 于 现实 社会 ， 因此 可 
能 数据 集中 大 多 数 的 数据 都 会 有 某 些 特征 属性 缺失 ,而 解决 的 办 法 往往 是 采用 均值 或 者 与 目标 
数据 近似 的 数据 特征 属性 替代 。 有 些 情况 奉 代 方法 可 取 , 而 有 些 情 况 下 ， 替 代 或 者 采用 均值 的 
办 法 处 理 缺失 值 是 不 可 取 的 ， 因 此 要 根据 具体 情况 具体 处 理 。 

首先 从 一 个 小 例子 开始 。 以 表 4-2 的 矩阵 为 例 ， 需 要 建立 一 个 包含 有 数据 集 的 数据 矩阵 ， 
之 后 可 以 利用 不 同 的 方法 对 其 进行 处 理 。 第 一 个 代码 如 程序 4-1 所 示 。 


【程序 4-1】 





程序 4-1 第 一 行 引入 了 Anaconda 自 带 的 一 个 数据 矩阵 化 的 包 .。 对 于 NumPy 读者 只 需要 知 
道 , NumPy 系统 是 Python 的 一 种 开源 的 数值 计算 扩展 。 这 种 工具 可 用 来 存储 和 处 理 大 型 矩阵 ， 
比 Python 自身 的 嵌 套 列表 (nested list structure) 结构 要 高 效 得 多 。 

第 一 行 代 码 的 意思 是 引入 NumPy 将 其 重 命名 为 np 使 用 ， 第 二 行使 用 NumPy 中 的 matO) 
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方法 建立 一 个 数据 矩阵 ，row 是 引入 的 计算 行 数 的 变量 ， 使 用 for 循环 将 data 数据 读 出 到 line 
中 ， 而 每 读 一 行 则 row 的 计数 加 一 。data.size 是 计算 数据 集中 全 部 数据 的 数据 量 ， 一 般 与 行 数 
相 除 则 为 列 数 。 请 读者 自行 打印 测试 结果 。 

而 需要 说 明 的 是 ，NumPy 将 数据 转化 成 一 个 矩阵 的 形式 进行 处 理 ， 其 中 具体 的 数据 可 以 
通过 二 元 的 形式 读 出 ， 如 程序 4-2 所 示 。 


【程序 4-2】 





最 终 打印 结果 如 下 : 





细心 的 读者 可 能 已 经 注意 到 ， 下 标 为 [0.3] 的 对 应 的 是 矩阵 中 第 1 行 第 4 列 数据 ,其 数值 为 
3， 而 打印 结果 为 3.0， 这 个 没什么 问题 。 而 对 于 下 标 为 [0,4] 的 数据 ， 和 矩阵 中 是 False 的 布尔 类 
型 , 而 打印 结果 是 0。 这 点 涉及 Python 的 语言 定义 , 其 布尔 值 都 可 以 近似 地 表示 为 0 和 1, 即 : 


如 果 需 要 打印 全 部 的 数据 集 ， 就 调用 如 下 方法 : 


将 全 部 的 数据 以 一 个 数据 的 形式 进行 打印 。 


4.1.3 基于 统计 分 析 的 数据 处 理 


除了 最 基本 的 数据 记录 和 提取 外 , 机 器 学 习 还 需要 知道 一 些 基 本 数据 的 统计 量 , 例如 每 一 
类 型 数据 的 均值 、 方差 以 及 标准 差 等 。 当 然 在 本 书 中 , 并 不 需要 使 用 手动 或 者 使 用 计算 器 去 计 
算 以 上 数值 ，NumPy 提供 了 相关 方法 ， 如 程序 4-3 所 示 。 


【程序 4-3】 
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首先 ，coll 生成 了 一 个 空 的 数据 集 , 之 后 采用 for 循环 将 数据 集 进 行 填充 。 在 程序 4-3 中 ， 
第 一 列 数 据 被 填 入 coll 数据 集中 ， 这 也 是 一 个 类 型 数据 的 集合 ， 之 后 依次 计算 数据 集 的 和 、 
均值 、 标 准 差 以 及 方差 ， 这 些 对 于 机 器 学 习 模型 的 建立 有 一 定 的 帮助 。 


4.2 图 形 化 数据 处 理 一 一 Matplotlib 包 使 用 


对 于 单纯 的 数字 来 说 , 仅 从 读数 据 的 角度 并 不 能 直观 反映 数字 的 偏差 和 集中 程度 , 因此 需 
要 采用 另外 一 种 方法 来 更 好 地 分 析 数 据 。 对 于 数据 来 说 , 没有 什么 能 够 比 用 图 形 来 解释 更 为 形 
象 和 直观 的 了 。 


4.2.1 差异 的 可 视 化 


继续 回 到 表 4-2 中 的 数据 ， 第 二 列 是 各 个 房屋 的 价格 ， 其 价格 并 不 相同 ， 因 此 直观 地 查看 
价格 的 差异 和 偏 移 程度 是 较为 困难 的 一 件 事 。 

研究 数值 差异 和 异常 的 方法 是 绘制 数据 的 分 布 程 度 , 相对 于 合适 的 直线 或 曲线 , 其 差异 程 
度 如 何 ， 以 便 帮 助 确定 数据 的 分 布 ， 如 程序 4-4 所 示 。 


【程序 4-4】 





结果 如 图 4-2 所 示 。 
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4-2 房屋 价格 的 偏离 展示 


这 里 展示 了 一 个 对 价格 偏离 程度 的 代码 实现 ，coll 集合 是 价格 的 合集 ，scipy 是 专门 的 机 
器 学 习 的 数据 处 理 包 ，probplot 计算 了 coll 数据 集中 数据 在 正 态 分 布下 的 偏离 程度 。 从 图 4-2 
可 以 看 出 ， 价 格 围绕 一 条 直线 上 下 波动 ， 有 一 定 的 偏离 ， 但 是 偏离 情况 不 太 明显 。 

其 中 ，R 为 0.9579， 指 的 是 数据 拟 合 的 相关 性 ， 一 般 0.95 以 上 就 可 以 认为 数据 拟 合 程度 比较 
好 。 


4.2.2 坐标 图 的 展示 


通过 上 文 第 一 个 对 回归 的 可 视 化 处 理 可 以 看 出 ， 可 视 化 能 够 让 数据 更 加 直观 地 展现 出 来 ， 
同时 可 以 让 数据 的 误差 表现 得 更 为 直观 。 

图 4-3 是 一 个 横向 坐标 图 ， 用 以 展示 不 同类 别 所 占 的 比重 。 系 列 1、2、3 可 以 分 别 代表 不 
同 的 属性 ， 而 类 别 1~6 可 以 看 作 是 6 个 不 同 的 特例 。 通 过 坐标 图 的 描述 可 以 非常 直观 地 看 出 
不 同 的 类 别 中 不 同 的 属性 所 占 的 比重 。 


出 2， 次 别 3， 半 别 4， 类 出 5， 我 制 & 
S558, 79 
50, 72, 89 
36, 66. 











图 4-3 横向 坐标 图 
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一 个 坐标 图 能 够 对 数据 进行 展示 , 其 最 基本 的 要 求 是 可 以 通过 不 同 的 行 或 者 列表 现 出 数据 
的 某 些 具体 值 ,不同 的 标签 使 用 不 同 的 颜色 和 样式 用 以 展示 不 同 的 系统 关系 。 程 序 4-5 展示 了 
对 于 不 同 目标 的 数据 提取 不 同 的 行进 行 显示 的 代码 。 


【程序 4-5】 





通过 选 定 不 同 目标 行 中 不 同 的 属性 , 可 以 对 其 进行 较 好 的 衡量 ,比较 两 个 行 之 间 的 属性 关系 以 
及 属性 之 间 的 相关 性 ， 如 图 44 所 示 。 不 同 的 目标 ， 即 使 属性 千差万别 ， 也 可 以 构建 相互 关系 图 。 


园 figure! 7 


从 OO 十 也 同 国 7 








4-4 不 同 目标 属性 之 间 的 关系 


本 例 中 采用 的 数据 较 少 , 随 着 数据 的 增加 ,属性 之 间 一 般 会 呈现 一 种 正 态 分 布 , 这 点 可 以 
请 读者 自行 验证 。 


程序 4-5 可 以 出 现 两 幅 图 ， 第 一 幅 图 请 读者 自行 查看 ， 建 议 将 其 与 第 二 幅 进 行 比较 。 
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4.2.3 ” 玩 个 大 的 


现在 开始 玩 个 大 的 。 

对 于 大 规模 数据 来 说 ， 由 于 涉及 的 目标 比较 多 ， 而 属性 特征 值 又 比较 多 ,对 其 查看 更 是 一 
项 非常 复杂 的 任务 。 因 此 为 了 更 好 地 理解 和 掌握 大 数据 的 处 理 , 将 其 转化 成 可 视 性 较 强 的 图 形 
是 更 好 的 做 法 。 

前 面 对 小 数据 集 进行 了 图 形 化 查阅 ， 现 在 对 现实 中 的 数据 进行 处 理 。 

数据 来 源 于 真实 的 信用 贷款 , 从 50000 个 数据 记录 中 随机 选取 200 个 数据 进行 计算 , 而 每 
个 数据 又 有 较 多 的 属性 值 。 大 多 数 情况 下 ， 数 据 是 以 csv 格式 进行 存储 的 ，pandas 包 同 样 提供 
了 相关 读 取 程序 。 具 体 代码 见 程序 4-6。 


【程序 4-6】 





从 程序 4-6 可 以 看 到 ， 首 先 使 用 filePath 创建 了 一 个 文件 路 径 ， 用 以 建立 数据 地 址 。 之 后 
使 用 pandas 自 带 的 read_csv 读 取 csv 格式 的 文件 。dataFile 是 读 取 的 数据 集 ， 之 后 使 用 iloc 方 
法 获取 其 中 行 的 属性 数据 。scattle 是 做 出 分 散 图 的 方法 ， 对 属性 进行 画图 。 最 终结 果 如 图 4-5 
所 示 。 


个 © + 全 国 





图 4-5 大 数据 集中 不 同 目标 属性 之 间 的 关系 
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数据 在 (0,0) 的 位 置 有 较 大 的 集合 , 表明 属性 在 此 的 偏离 程度 较 少 , 而 几 个 特定 点 是 偏离 程 
度 较 大 的 点 。 这 可 以 帮助 读者 对 高 群 值 进行 分 析 。 


性 元 在 程序 4-6 中 出 现 了 两 个 图 ， 第 一 个 图 请 读者 自行 分 析 。 


下 面 继续 对 数据 集 进行 分 析 。 程序 4-5 和 程序 4-6 让 读者 看 到 了 对 数据 同一 行 中 不 同 的 属 
性 进行 处 理 和 现实 的 方法 。 如 果 要 对 不 同 目标 行 的 同一 种 属性 进行 分 析 , 那么 如 何 做 呢 ? 请 读 
者 参阅 程序 4-7。 


【程序 4-7】 


程序 4-7 对 数据 进行 处 理 时 提取 了 200 行 数 据 中 的 第 10 个 属性 ， 并 对 其 进行 判定 ， 单 纯 
的 判定 规则 是 根据 均值 对 其 区 分 ， 之 后 计算 判定 结果 ， 如 图 4-6 所 示 。 
el x 


个 OO+7F 绚 国 








4-6 ”大 数据 集中 不 同行 相同 属性 之 间 的 关系 
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通过 图 4-6 可 以 看 到 ， 属 性 被 人 为 地 分 成 两 部 分 ， 数 据 集合 的 程度 也 显示 了 偏离 程度 。 如 
果 下 一 步 需 要 对 属性 的 离散 情况 进行 反映 ， 则 应 该 使 用 程序 4-8。 


【程序 4-8】 





在 此 段 程序 中 ， 离 散 的 数据 被 人 为 地 加 入 了 离散 变量 。 具 体 显示 结果 请 读者 自行 完成 。 


草 志 | 读者 可 以 对 程序 的 属性 做 出 诸多 抽取 ， 并 尝试 使 用 更 多 的 方法 和 变量 进行 处 理 。 


4 .了 深度 学 习 理论 方法 一 相似 度 计算 


我 们 从 上 一 节 的 内 容 可 以 看 出 , 不 同 目标 行 之 间 的 属性 不 同 , 画 出 的 散 点 图 也 是 千差万别 
的 。 属 性 不 同 ， 对 于 机 器 学 习 来 说 ， 就 需要 一 个 统一 的 度量 进行 计算 ， 即 需要 对 其 相似 度 进行 
计算 。 

相似 度 的 计算 方法 很 多 ， 这 里 选用 最 常用 的 两 种 ， 即 欧 几 里 得 相似 度 和 余弦 相似 度 计算 。 
如 果 读 者 对 此 不 感 兴趣 ， 可 以 跳 过 本 节 继 续 学 习 。 


4.3.1 基于 欧 几 里 得 距离 的 相似 度 计算 


欧 几 里 得 距离 (Euclidean distance) 是 最 常用 计算 距离 的 公式 ， 它 用 来 表示 三 维 空间 中 两 
个 点 的 真实 距离 。 

欧 几 里 得 相似 度 计算 是 一 种 基于 用 户 之 间 直 线 距 离 的 计算 方式 。 在 相似 度 计算 中 , 不 同 的 
物品 或 者 用 户 可 以 将 其 定义 为 不 同 的 坐标 点 ,而 特定 目标 定位 坐标 原点 。 使 用 欧 几 里 得 距离 计 
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算 两 个 点 之 间 的 绝对 距离 。 欧 几 里 得 公式 距离 如 下 所 示 。 


qd = = +( = 
从 中 可 以 看 到 , 作为 计算 结果 的 欧式 值 显示 的 是 两 点 之 间 的 直线 距离 , 该 值 的 大 小 表示 两 
个 物品 或 者 用 户 差异 性 的 大 小 ， 即 用 户 的 相似 性 如 何 。 两 个 物品 或 者 用 户 距 离 越 大 ， 相 似 度 越 
小 ; 距离 越 小 ， 则 相似 度 越 大 。 








由 于 在 欧 几 里 得 相似 度 计算 中 ,最 终 数值 的 大 小 与 相似 度 成 反比 ， 因 此 在 实际 中 常常 使 用 | 
上 欧 几 里 得 距离 的 倒数 作为 相似 度 值 ， 即 1/d+1 作为 近似 值 。 








请 参看 一 个 常用 的 用 户 -物品 推荐 评分 表 的 例子 ， 如 表 4-3 所 示 。 
表 4-3 用 户 与 物品 评分 对 应 表 





表 4-3 是 3 个 用 户 对 物品 的 打分 表 ， 如 果 需 要 计算 用 户 1 和 其 他 用 户 之 间 的 相似 度 ,通过 
欧 几 里 得 距离 公式 可 以 得 出 : 


dy =V0 -1 +0-27 +(3-3) +(1—2) ~1.414 


从 上 可 以 看 到 ， 用 户 1 和 用 户 2 的 相似 度 为 1.414， 而 用 户 1 和 用 户 3 的 相似 度 是 : 


ds=V1-2) +0-2) +(3-1) +(1-1) ~ 2.287 


从 得 到 的 计算 值 可 以 看 出 ，d 分 值 小 于 di 的 分 值 ， 因 此 可 以 得 到 用 户 2 更 加 相似 于 用 户 1。 


4.3.2 ”基于 余弦 角度 的 相似 度 计算 


与 欧 几 里 得 距离 相似 , 余弦 相似 度 也 将 特定 目标 (物品 或 者 用 户 》 作 为 坐标 上 的 点 ,但 不 
是 坐标 原点 ， 而 是 与 特定 的 被 计算 目标 进行 夹 角 计算 ， 具体 如 图 4-7 所 示 。 


b 
A 4 
- 


图 4-7 余弦 相似 度 示 例 
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从 图 4-7 可 以 很 明显 地 看 出 ， 两 条 直线 分 别 从 坐标 原点 触发 ， 引 出 一 定 的 角度 。 若 两 个 目 
标 较为 相似 ， 则 其 线段 形成 的 夹 角 较 小 。 若 两 个 用 户 不 相近 ， 则 两 条 射线 形成 的 夹 角 较 大 。 因 
此 在 使 用 余弦 度量 的 相似 度 计算 中 , 可 以 用 夹 角 的 大 小 来 反映 目标 之 间 的 相似 性 。 余弦 相似 度 
的 计算 如 下 列 公式 所 示 。 


pe < 
VE x 


余弦 值 一 般 在 [-1,1] 之 间 ， 而 这 个 值 的 大 小 同时 与 余弦 夹 角 的 大 小 成 正比 。 如 果 用 余弦 相 
似 度 计算 表 4-3 中 用 户 1 和 用 户 2 之 间 的 相似 性 ， 结 果 如 下 : 


COS C 三 


1xl+1x2+3x3+1x2 
Cr 
而 用 户 1 和 用 户 3 的 相似 性 结果 为 : 
四 1x2+1x2+3xl+1lxl 加 
3 VEP+P+32+2xvyV22+22+D2+P2 V2xV0 
从 计算 可 得 ， 相 对 于 用 户 3， 用 户 2 与 用 户 1 更 为 相似 。 


4.3.3 欧 几 里 得 相似 度 与 余弦 相似 度 的 比较 


欧 几 里 得 相似 度 是 以 目标 绝对 距离 作为 衡量 的 标准 , 而 余弦 相似 度 是 以 目标 差异 的 大 小 作 
为 衡量 标准 ， 其 表述 如 图 4-8 所 示 。 





0.344 











图 4-8 欧 几 里 得 相似 度 与 余弦 相似 度 
从 图 4-8 可 以 看 出 ， 欧 几 里 得 相似 度 注重 目标 之 间 的 差异 , 与 目标 在 空间 中 的 位 置 直接 相 
关 。 而 余弦 相似 度 是 不 同 目标 在 空间 中 的 夹 角 ， 更 加 表现 在 前 进 趋势 上 的 差异 。 
欧 几 里 得 相似 度 和 余弦 相似 度 具 有 不 同 的 计算 方法 和 描述 特征 。 一 般 来 说 , 欧 几 里 得 相似 
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度 用 以 表现 不 同 目标 的 绝对 差异 性 ， 从 而 分 析 目 标 之 间 的 相似 度 与 差异 情况 。 而 余弦 相似 度 更 
多 的 是 对 目标 从 方向 趋势 上 进行 区 分 ， 对 特定 坐标 数字 不 敏感 。 








1 举例 来 说 ， 两 个 目标 在 不 同 的 两 个 用 户 之 间 的 评分 分 别 是 (1,1) 和 (5,5) ， 这 两 个 评分 
| 在 表述 上 是 一 样 的 , 但 是 在 分 析 用 户 相似 度 时 , 更 多 的 是 使 用 欧 几 里 得 相似 度 , 而 不 是 余 
| 弦 相 似 度 。 余 弦 相 似 度 更 好 地 区 分 了 用 户 分 离 状 态 。 








4 .A 数据 的 统计 学 可 视 化 展示 


在 4.3 节 中 ， 读 者 对 数据 ， 特 别 是 大 数据 的 处 理 有 了 一 个 基本 的 认识 。 通 过 数据 的 可 视 化 
处 理 ， 对 数据 的 基本 属性 和 分 布 都 有 了 较为 直观 的 理解 。 但 是 对 于 机 器 学 习 来 说 ， 这 里 数据 需 
要 更 多 的 分 析 处 理 ， 需 要 用 到 更 为 精准 和 科学 的 统计 学 分 析 。 

本 节 将 使 用 统计 学 分 析 对 数据 进行 处 理 。 


4.4.1 数据 的 四 分 位 


四 分 位 数 〈Quartile) 是 统计 学 中 分 位 数 的 一 种 ， 即 把 所 有 数据 由 小 到 大 排列 并 分 成 四 等 
份 ， 处 于 三 个 分 割 点 位 置 的 数据 就 是 四 分 位 数 。 


@ 第 一 四 分 位 数 (Q1)， 又 称 “ 下 四 分 位 数 ”， 等 于 该 样本 中 所 有 数据 由 小 到 大 排列 后 
第 25% 的 数据 。 

@ ”第 二 四 分 位 数 (Q2), 又 称 “ 中 位 数 ”, 等 于 该 样本 中 所 有 数据 由 小 到 大 排列 后 第 50% 
数据 。 

@ 第 三 四 分 位 数 (Q3)， 又 称 “ 上 四 分 位 数 ”， 等 于 该 样本 中 所 有 数据 由 小 到 大 排列 后 
第 75% 的 数据 。 

第 三 四 分 位 数 与 第 一 四 分 位 数 的 差距 又 称 为 四 分 位 距 (InterQuartile Range，IQR) 。 

首先 确定 四 分 位 数 的 位 置 。 如 果 用 n 表示 项 数 ， 那 么 三 个 分 位 数 的 位 置 分 别 为 : 


@。”Q1 的 位 置 : (n+1) x 0.25。 
@  Q2 的 位 置 : (n+1) x 0.5。 
@ ” Q3 的 位 置 : (n+1) x 0.75。 


通过 图 形 表示 则 如 图 4-9 所 示 。 
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1 < 一 一 一 下 边缘 








图 4-9 四 分 位 的 计算 


从 图 4-9 可 以 看 到 ， 四 分 位 在 图 形 中 根据 Q1 和 Q3 的 位 置 绘制 了 一 个 箱 体 结构 ， 即 根据 
一 组 数据 5 个 特征 绘制 的 一 个 箱子 和 两 条 线段 的 图 形 。 这 种 直观 的 箱 线 图 反映 出 一 组 数据 的 特 
征 分 布 ， 还 显示 了 数据 的 最 小 值 、 中 位 数 和 最 大 值 。 


4.4.2 数据 的 四 分 位 示例 


现在 回 到 数据 处 理 中 来 ， 这 里 依旧 使 用 4.3 节 中 的 数据 集 进行 数据 处 理 。 

首先 介绍 一 下 本 例 中 的 数据 集 。 本 数据 集 的 来 源 是 真实 世界 中 某 借贷 机 构 对 申请 贷款 人 的 
背景 调查 ， 目 的 是 根据 不 同 借款 人 的 条 件 ， 分 析 判 断 借款 人 能 否 按时 归还 贷款 。 一 般 来 说 ， 借 
款 人 能 否 按时 归还 贷款 是 所 有 借贷 最 为 头疼 的 问题 其 中 的 影响 因素 很 多 ,判别 相对 麻烦 , 判 
断 错 误 后 果 也 较为 严重 。 通 过 机 器 学 习 ， 就 可 以 较为 轻松 地 将 其 转化 成 一 个 回归 分 类 问题 。 

数据 集中 的 数据 如 图 4-10 所 示 。 







.11, 8. 51, 0. 61, 358, 283, 
36, 0, 10, 0, 0, 3, 24, 387, 3 
29, 0. 36, 27. 21, 0. 16, 6.2 


), 4, 1, 0, 6, 5645, 1212, 1060, 0, 37, 0 
0, 619, 115, 0, 0, 0 [i 





4-10 ”小 贷 数据 集 
这 个 数据 集 的 形式 是 每 一 行为 一 个 单独 的 目标 行 , 使 用 有 逗号 分 割 不 同 的 属性 ; 每 一 列 是 不 
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同 的 属性 特征 ， 不 同 列 的 含义 在 现实 中 至 关 重要 ， 这 里 不 做 解释 。 具 体 代码 如 程序 4-9 所 示 。 
【程序 4-9】 


首先 来 看 数据 的 结果 : 
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这 一 部 分 是 打印 出 来 的 计算 后 的 数据 头 部 和 尾部 , 这 里 为 了 节省 空间 , 只 选择 了 前 6 个 和 
最 后 6 个 数据 。 第 一 列 是 数据 的 编号 , 对 数据 目标 行进 行 区 分 , 其 后 是 每 个 不 同 目标 行 的 属性 。 

dataFile.describe() 方 法 是 对 数据 进行 统计 学 估计 ，count、mean、std、min 分 别 求 得 每 列 数 
据 的 计数 、 均 值 、 方 差 以 及 最 小 值 。 最 后 的 几 个 百分比 是 求 得 四 分 位 的 数据 ， 有 具体 图 形 如 图 
4-11 所 示 。 





个 OQO 和 + 名 国 7 














图 4-11 小 贷 数 据 集 的 四 分 位 显示 


程序 中 选择 第 11~16 的 数据 作为 分 析 数 据 集 ， 从 中 可 以 看 出 ， 不 同 的 数据 列 做 出 的 箱 体 
四 分 位 图 也 是 不 同 的 , 而 部 分 不 在 点 框 体内 的 数据 被 称 为 离 群 值 ,一 般 被 视 作 特 异 点 加 以 处 理 。 


莉 志 | 读者 可 以 多 选择 不 同 的 目标 行 和 属性 点 进行 分 析 。 


从 图 4-11 可 以 看 出 ,四 分 位 图 是 一 个 以 更 好 、 更 直观 的 方式 来 识别 数据 中 异常 值 的 方法 。 
比 起 数据 处 理 的 其 他 方式 ， 四 分 位 图 能 够 更 有 效 地 让 分 析 人 员 判断 离 群 值 。 


4.4.3 数据 的 标准 化 


继续 对 数据 进行 分 析 ,在 进行 数据 选择 的 时 候 可 能 会 遇 到 某 一 列 的 数值 过 大 或 者 过 小 的 问 
题 ， 若 数据 的 显示 超出 其 他 数据 部 分 较 大 时 则 会 产生 数据 图 形 失真 的 问题 ， 如 图 4-12 所 示 。 
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图 4-12 ”数据 超 预期 的 四 分 位 图 

因此 , 需要 一 个 能 够 对 数据 进行 处 理 , 使 其 具有 共同 计算 均值 的 方法 , 称 为 数据 的 标准 化 处 理 。 

顾名思义 ,数据 的 标准 化 就 是 将 数据 根据 自身 一 定 的 比例 进行 处 理 , 使 之 落 入 一 个 小 的 特 
定 区 间 ， 一 般 为 (-1,1) 之 间 。 这 样 做 的 目的 是 去 除数 据 的 单位 限制 ， 将 其 转化 为 无 量 纲 的 纯 数 
值 ， 使 得 不 同 单位 或 量 级 的 指标 能 够 进行 比较 和 加 权 ， 其 中 最 常用 的 就 是 0-1 标准 化 和 Z 标准 化 。 

1. 0-1 标准 化 ( 0-1 normalization ) 

0-1 标准 化 也 叫 离 差 标 准 化 ， 是 对 原始 数据 的 线性 变换 ， 使 结果 落 到 [0,1] 区 间 ， 转 换 函 数 
如 下 : 

克 一 X_NMin 
Max— min 

其 中 ，max 为 样本 数据 的 最 大 值 ，min 为 样本 数据 的 最 小 值 。 这 种 方法 有 一 个 缺陷 ， 就 是 
当 有 新 数据 加 入 时 可 能 导致 max 和 min 的 变化 ， 需 要 重新 定义 。 

2. Z-score 标准 化 ( Zero-mean normalization ) 

Z-score 标准 化 也 叫 标 准 差 标准 化 ， 经 过 处 理 的 数据 符合 标准 正 态 分 布 ， 即 均值 为 0， 标 
准 差 为 1， 其 转化 函数 为 : 





其 中 ,4 为 所 有 样本 数据 的 均值 ，o 为 所 有 样本 数据 的 标准 差 。 
一 般 情况 下 ,通过 数据 的 标准 化 处 理 后 ,数据 最 终 落 在 (-1,1) 之 间 的 概率 为 99.7%, 而 在 (-1,1) 
之 外 的 数据 被 设置 成 -1 和 1， 以 便 处 理 ， 如 程序 4-10 所 示 。 


【程序 4-10】 
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从 代码 中 可 以 看 到 ， 数 据 被 处 理 为 标准 差 标准 化 的 方法 ，dataFileNormalized 被 重新 计算 
并 定义 ， 大 数值 被 人 为 限定 在 (-1,1) 之 间 ， 请 读者 自行 运行 验证 。 


请 了 册 很 序 410 中 所 使 用 的 数据 被 人 为 修改 ， 请 读者 自行 修改 验证 。 这 里 笔者 不 再 进行 演示 。 





此 外 ， 读 者 可 以 对 数据 进行 处 理 ， 验 证 更 多 的 标准 化 方法 。 


4.4.4 数据 的 平行 化 处 理 


从 4.4.2 小 节 可 以 看 到 ， 对 于 每 种 单独 的 数据 属性 来 说 ， 可 以 通过 数据 的 四 分 位 法 进行 处 
理 、 查 找 和 寻找 离 群 值 ， 从 而 对 其 进行 分 析 处 理 。 

但 是 对 于 属性 之 间 的 横向 比较 、 每 个 目标 行 属性 之 间 的 比较 ， 使 用 四 分 位 法 则 较 难 判断 。 
因此 ， 为 了 描述 和 表现 每 一 个 不 同 目标 行 之 问 数据 的 差异 ， 需 要 另外 一 种 处 理 和 展示 方法 。 

平行 坐标 是 一 种 常见 的 可 视 化 方法 ， 用 于 对 高 维 几何 和 多 元 数据 的 可 视 化 。 

平行 坐标 Parallel Coordinates) 为 了 表示 在 高 维 空间 的 一 个 点 集 ， 在 六 条 平行 的 线 的 背 
景 下 (一 般 这 NN 条 线 都 坚 直 且 等 距 ) ， 一 个 在 高 维 空间 的 点 被 表示 为 一 条 拐点 在 NN 条 平行 坐 
标 轴 的 折线 ， 在 第 天 个 坐标 轴 上 的 位 置 就 表示 这 个 点 在 第 天 维 的 值 。 

平行 坐标 是 信息 可 视 化 的 一 种 重要 技术 。 为 了 克服 传统 的 笛 卡 儿 直 角 坐 标 系 容易 耗 尽 空 
间 、 难以 表达 三 维 以 上 数据 的 问题 , 平行 坐标 将 高 维 数据 的 各 个 变量 用 一 系列 相互 平行 的 坐标 
轴 表 示 ， 变 量 值 对 应 轴 上 位 置 。 为 了 反映 变化 趋势 和 各 个 变量 间 的 相互 关系 , 往往 将 描述 不 同 
变量 的 各 点 连接 成 折线 。 所 以 平行 坐标 图 的 实质 是 将 多 维 欧式 空间 的 一 个 点 Xi(xitsxi,…wxim) 
映射 到 多 维 平面 上 的 一 条 曲线 。 

平行 坐标 图 可 以 表示 超 高 维 数据 。 平行 坐标 的 一 个 显著 优点 是 具有 良好 的 数学 基础 , 其 射 
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影 几 何 解 释 和 对 偶 特 性 使 其 很 适合 用 于 可 视 化 数据 分 析 ， 如 程序 411 所 示 。 
【程序 4-11】 





首先 , 计算 总 体 的 统计 量 , 之 后 设置 计算 的 最 大 值 和 最 小 值 。 本 例 中 人 为 设置 最 小 值 为 -1、 
最 大 值 为 99。 为 了 计算 简便 ， 选 择 前 10 行 作为 目标 行 。 然 后 使 用 for 循环 对 数据 进行 训练 。 
最 终 图 形 结果 如 图 4-13 所 示 。 


企 D@O+odl 应 国 所 








图 4-13 属性 的 图 形 化 展示 


从 图 4-13 中 可 以 看 出 ，10 个 不 同 的 属性 画 出 了 10 条 不 同 的 曲线 〈 这 些 曲线 根据 不 同 的 
属性 从 而 画 出 不 同 的 运行 轨迹 ) 。 








[向 ” 可 选择 不 同 的 目标 行 和 不 同 的 属性 进行 验证 ， 可 以 观察 更 多 的 数据 所 展示 的 结果 有 | 
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4.4.5 热点 图 一 一 属性 相关 性 检测 


前 面 笔者 对 数据 集中 数据 的 属性 分 别 进行 了 横向 和 纵向 的 比较 。 现 在 请 读者 换 一 种 思路 ， 
如 果 对 数据 属性 之 间 的 相关 性 进行 检测 ， 那 该 怎么 办 呢 。 

热点 图 是 一 种 判断 属性 相关 性 的 常用 方法 ,根据 不 同 目标 行 数据 对 应 的 数据 相关 性 进行 检 
测 。 程 序 4-12 展示 了 对 数据 相关 性 进行 检测 的 方法 ， 根 据 不 同 数据 之 间 的 相关 性 做 出 图 形 。 


【程序 4-12】 





最 终结 果 如 图 4-14 所 示 。 





图 4-14 属性 之 间 的 相关 性 图 


不 同 颜色 之 间 显 示 了 不 同 的 相关 性 , 彩色 的 深浅 显示 了 相关 性 的 强 弱 程度 。 对 此 读者 可 以 
通过 打印 相关 系数 来 直观 地 显示 数据 ， 相 关系 数 打 印 方法 如 下 : 





草 却 在 此 选择 前 20 行 中 的 前 20 列 的 数据 属性 进行 计算 ,可 以 对 其 进行 更 多 的 验证 和 显示 处 理 。 
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入 .局 “python 实战 一 “ 某 地 降水 的 关系 处 理 


上 面 的 章节 对 数据 属性 间 的 处 理 做 了 一 个 大 致 的 介绍 , 本 节 将 使 用 这 个 方法 解决 一 个 实际 
问题 。 

农业 灌溉 用 水 主要 来 自 于 天 然 降水 和 地 下 水 。 随 着 中 原 经 济 区 的 发 展 和 城镇 化 水 平 的 提 
高 ， 城 市 用 水 日 趋 紧张 。 下 面 分 析 河 南 省 降水 量 的 变化 及 分 布 规律 ,为 合理 调度 和 利用 水 资源 
提供 决策 。 数 据 集 名 为 rain.csv， 记 录 了 从 2000 年 开始 到 2011 年 之 间 每 月 的 降水 量 数据 。 本 
节 将 以 其 降水 量 进行 统计 计算 ， 找 出 规律 并 进行 分 析 。 


4.5.1 不 同年 份 的 相同 月 份 统计 


对 于 不 同年 份 ， 每 月 的 降水 量 也 是 不 同 的 。 一 般 情 况 下 ， 降 水 量 会 随 着 春 、 夏 、 秋 、 冬 的 
交替 呈现 不 同 的 状态 , 横向 是 一 个 过 程 。 对 于 不 同 的 年 份 来 说 , 每 月 的 降水 量 应 该 在 一 个 范围 
内 浮动 ， 而 不 应 偏离 均值 太 大 ， 如 程序 4-13 所 示 。 


【程序 4-13】 





打印 结果 如 下 : 
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从 打印 结果 可 以 看 到 , 程序 对 平均 每 个 月 份 的 降水 量 进行 了 计算 , 获得 了 其 偏 移 值 、 均值 
以 及 均 方差 的 大 小 。 
通过 四 分 位 的 计算 ， 可 以 获得 一 个 波动 范围 ， 具 体 结果 见 图 4-15。 


介 O+ 避 和 国 7 





































































































lx= y=3152.12 s 


4-15 ”降水 量 的 四 分 位 图 


从 图 4-15 中 可 以 直观 地 看 出 ， 不 同月 份 之 间 ， 降 水 量 有 很 大 的 差距 ，1~4 月 降水 量 明 显 
较 少 ，5 月 份 开始 降水 量 明显 增多 ， 在 7 月 份 达到 项 峰 后 回落 ，11 月 和 12 月 明显 减少 。 

同时 可 以 看 到 , 有 几 个 月 份 的 降水 量 有 明显 的 偏 移 , 即 离 群 值 出 现 , 可 能 跟 年 度 情况 有 关 ， 
需要 继续 进行 分 析 。 


4.5.2 不 同月 份 之 间 的 增 减 程度 比较 


正常 情况 下 , 每 年 降水 量 都 呈现 一 个 平稳 的 增长 或 者 减少 的 过 程 , 其 下 降 的 坡度 (趋势 线 ) 
则 应 该 是 一 样 的 。 程 序 4-14 展示 了 这 种 趋势 。 
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【程序 4-14】 





最 终 打 印 结果 如 图 4-16 所 示 。 


[ren x) 


rowel 
[全 OO©O+ 百 国 7 
| 





= y=3387.97 _ 














图 4-16 降水 量 的 趋势 图 
从 图 4-16 中 可 以 明显 地 看 出 ， 降 水 的 月 份 并 不 是 一 个 规律 的 上 涨 或 下 跌 ， 而 是 呈现 一 个 
不 规则 的 浮动 状态 ， 增 加 最 快 的 为 6~7 月 ， 而 下 降 最 快 的 为 7~8 月 ， 之 后 有 一 个 明显 的 回升 
4.5.3 每 月 降水 不 相关 吗 


每 月 的 降水 量 理论 上 来 说 应 该 是 具有 相互 独立 性 的 ， 即 每 月 的 降水 量 和 其 他 月 份 没有 关 
系 ， 但 是 实际 是 这 样 的 吗 ? 可 以 通过 程序 4-15 来 进行 分 析 。 


【程序 4-15】 
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计算 的 最 终结 果 如 图 4-17 所 示 。 




















图 4-17 月 份 之 间 的 相关 性 显示 


从 图 4-17 中 可 以 看 出 , 颜色 分 布 比较 平均 , 表示 月 份 之 间 的 降水 量 并 没有 太 大 的 相关 性 ， 
因此 可 以 认为 每 月 的 降水 是 独立 行为 ， 每 个 月 的 降水 量 和 其 他 月 份 没有 关系 。 


和 .6 本 章 小 结 


上 面 的 章节 已 经 对 数据 属性 间 的 处 理 做 了 一 个 大 致 的 介绍 ,并 使 用 了 数据 分 析 的 方法 对 其 
进行 分 析 和 整理 。 本 章 从 直观 的 观察 开始 , 深入 介绍 和 研究 了 数据 集 和 分 析 工 具 ， 了解 了 使 用 
Python 类 库 进 行 数据 分 析 的 基本 方法 。 数 据 分 析 从 最 基本 的 算 阵 转换 开始 ， 直 到 对 数据 集 特 
征 值 的 分 析 和 处 理 ， 通 过 这 些 为 读者 掌握 和 了 解 简单 的 数据 分 析 打下 基础 。 

使 用 相应 的 类 库 进行 深度 学 习 程 序 设 计 是 本 章 的 重点 , 也 是 笔者 希望 读者 掌握 的 内 容 。 再 
一 次 重复 ， 请 读者 在 程序 设计 时 尽量 使 用 已 有 的 Python 去 进行 程序 设计 。 在 数据 的 可 视 化 展 
示 过 程 中 ， 通 过 多 种 数据 图 形 向 读者 演示 了 如 何 通过 使 用 不 同 的 类 库 非 常 直 观 地 进行 数据 分 
析 。 希 望 本 章 中 提供 的 研究 方法 和 程序 设计 思路 能 够 帮助 读者 掌握 基本 数据 集 描述 性 和 统计 值 
之 间 的 关系 ， 这 些 非常 有 利于 对 数据 的 掌握 。 

本 章 是 机 器 学 习 的 基础 , 虽然 内 容 简单 ,但 是 非常 重要 , 希望 读者 能 够 使 用 不 同 的 数据 集 
进行 处 理 并 演示 更 多 的 值 。 
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第 5 章 
< OpenCV 的 基山 使 用 > 


OpenCyV 的 全 称 是 Open Source Computer Vision Library, 是 Intel 公司 所 支持 开发 的 一 个 计 
算 机 视觉 处 理 开 源 软件 库 ， 采 用 C 和 C++ 编写 ， 也 提供 了 Python、Matlab 等 语言 的 接口 ， 并 
且 可 以 自由 地 运行 在 Linux/Windows/Mac 等 多 平台 操作 系统 上 。 

OpenCV 的 目标 是 让 使 用 者 能 够 通过 合理 的 使 用 和 搭配 , 构建 一 个 简单 易 用 的 计算 机 视觉 
处 理 框架 , 能 够 便捷 地 设计 更 为 复杂 的 计算 机 视觉 的 相关 应 用 , 而 且 OpenCV 充分 利用 了 Intel 
处 理 器 的 高 性 能 多 媒体 函数 库 的 手工 优化 性 能 ， 提 高 了 运行 速度 。 

目前 来 说 ，OpenCV 所 包含 的 能 够 进行 视觉 处 理 的 函数 和 方法 接近 1000 个 ， 已 经 能 够 极 
大 地 满足 各 行 各 业 的 需求 , 覆盖 了 如 医学 影像 、 设 计 外 观 、 定 位 标记 、 生 物体 检测 等 多 个 行业 
领域 。 

本 章 将 全 面 介绍 OpenCV 的 使 用 。 从 读 取 一 幅 图 片 开 始 ， 学 习 使 用 OpenCV， 并 逐渐 深入 
学 习 ， 掌 握 使 用 OpenCV 处 理 各 种 图 片 数据 的 方法 ， 为 使 用 神经 网 络 处 理 数据 打下 基础 。 


OpenCV 基本 的 图 片 读 取 


OpenCV 可 以 读 取 各 种 类 型 的 图 像 数据 ， 例 如 常用 的 jpg、bmp、png、tiff、pbm 等 。 除 此 
之 外 ， OpenCV 基本 上 还 支持 所 有 的 图 像 格 式 。 本 节 将 学 习 使 用 OpenCV 代码 对 图 片 进行 基本 
的 读 取 和 显示 。 


5.1.1 基本 的 图 片 存 储 格 式 

在 进行 OpenCV 的 使 用 介绍 前 ， 希 望 读者 能 够 了 解 基本 的 数据 存储 形式 。 在 计算 机 中 ， 
图 片 是 以 矩阵 的 形式 存储 在 存储 介质 中 。 

例如 ， 首 先 通过 NumPy 创建 一 个 长 宽 各 为 300 的 矩阵 ， 各 个 点 的 值 为 0。 

img = np.mat (np.zeros((300,300))) 


从 数值 上 看 ， 这 里 是 一 个 [300,300] 的 矩阵 ， 和 矩阵 中 每 个 具体 数值 为 0。 但 是 从 图 片 角度 来 
看 ， 这 里 笔者 创建 了 一 个 300X300 像素 的 图 片 ， 其 中 每 个 像素 点 的 颜色 为 黑色 。 
下 面 如 果 通过 OpenCV 代码 显示 这 张 图 片 的话 ， 代 码 如 下 : 


cv2.imshow ("test",img) 
cv2 .waitKey (0) 


这 里 第 一 行 是 cv2 的 输出 图 片 的 固定 写法 , 将 刚才 生成 的 一 个 矩阵 以 图 片 的 形式 在 使 用 者 
输出 端 上 显示 , 之 后 waitKey 方法 要 求 输出 的 图 像 暂 时 等 待 ,， 可 以 通过 手动 操作 的 形式 取消 图 
片 显示 。 

完整 代码 如 程序 5-1 所 示 。 


【程序 5-1】 
import numpy as np 
import cv2 
img = np.mat (np.zeros((300,300))) 
cv2.imshow ("test",img) 


cv2.waitKey (0) 


程序 运行 结果 如 图 5-1 所 示 。 





图 5-1 程序 运行 结果 


虹 元 在 图 像 生成 时 ， 每 个 像素 都 是 由 一 个 8 位 的 整数 来 表示 ， 即 每 个 像素 值 的 范围 是 0~255。 | 





补充 一 下 ， 有 时 候 在 人 为 生成 像素 块 的 时 候 , 需要 人 为 地 制定 数据 格式 , 例如 上 面 程序 语 
句 应 该 以 如 下 方式 指定 : 
img = np.mat (np.zeros((300,300),dtype = np.uint8)) 


读者 可 以 自行 生成 一 个 多 维 矩 阵 , 之 后 通过 随机 注入 数值 的 方式 将 矩阵 填 满 ， 再 查看 显示 
的 结果 。 


细心 的 读者 可 能 已 经 发 现 ,在 本 例 中 ,生成 的 是 一 个 一 维 的 黑色 图 片 。 但 是 对 于 现实 中 的 
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图 片 ， 一 般 都 是 由 红 绿 蓝 三 种 颜色 所 构成 ， 即 基本 的 三 基色 ， 从 而 在 图 片 的 显示 时 ， 会 由 一 个 
3 通道 的 数据 集 负责 图 片 的 整体 显示 。 
OpenCV 同样 提供 了 此 方法 : 





这 里 强制 将 原始 的 一 维 图 片 转化 为 三 维 图 片 ， 读 者 可 以 通过 如 下 方法 查看 通道 数目 : 





显示 结果 如 下 : 





可 以 看 到 ， 原 本 一 维 的 数据 被 分 成 了 3 个 维度 ， 在 图 片 中 分 别 代表 R、G、B 三 个 颜色 通 
道 ， 虽 然 生成 的 图 片 依旧 是 黑色 ,但 是 在 数据 处 理 时 ， 整 个 图 片 已 经 是 由 三 维 图片 合 加 而 成 。 
5-2 显示 的 是 一 个 3 通道 的 图 像 在 OpenCYV 分 解 的 图 示 。 


Eseloce En 一 | 一 | 一 
9 | |2s5| 0 |2ss es 
SalSealSea 
C 

















图 5-2 三 维 图 片 的 显示 和 存储 
可 以 看 到 , 一 个 图 片 被 分 解 成 一 个 3 个 维度 的 数组 , 每 个 维度 显示 一 个 颜色 的 值 。 值 得 一 
提 的 是 ， 在 OpenCV 中 ， 使 用 的 是 与 大 多 数 RGB 通道 不 同 的 BGR 通道 ， 即 第 一 个 元 素 是 蓝 
色 (Blue) ， 第 二 个 颜色 是 绿色 (Green) ， 第 三 个 颜色 是 红色 (Red) 。 
请 读者 自行 打印 验证 。 


5.1.2 ”图像 的 读 取 与 存储 


对 于 基本 类 型 的 图 片 ，OpenCV 提供 了 图 片 的 读 取 与 写 入 操作 。imread 和 imwrite 方法 分 
别 是 OpenCV 的 读 方法 和 写 方法 。 代 码 如 下 : 





可 以 看 到 , cv2 调用 了 imread 方法 从 当前 目录 下 读 取 了 文件 , 这 里 需要 注意 的 是 在 读 取 的 


同时 ， 图 片 被 自动 读 取 为 灰 度 图 。 


ENA: Eas hE 


第 二 行 代码 将 所 读 取 的 图 片 存储 到 当前 目录 下 , 这 里 传递 进 了 2 个 参数 , 第 一 个 表示 为 图 
片 的 存储 名 称 ， 并 在 存储 的 时 候 ， 图 片 的 类 型 发 生 改变 ， 由 jpg 格式 改变 为 png 格式 存储 ; 而 


第 二 个 参数 为 内 存 中 所 要 存储 的 目标 。 


在 保存 的 时 候 ，OpenCYV 是 没有 多 通道 或 者 单 通道 这 一 个 说 法 ,根据 文件 设置 的 后 级 名 和 


对 应 的 文件 维度 ， 自 动 判断 保存 的 通道 ， 并 进行 自动 保存 。 


OpenCV 在 进行 数据 读 写 的 时 候 ，imread0) 函 数 会 删除 所 有 图 片 Alpha 通道 的 信息 ; 而 


imwrite0 函 数 要 求 输出 的 图 片 格式 为 BGR 或 者 灰 度 图 。 


5.1.3 图像 的 转换 


在 上 一 节 中 , 借 由 imwrite() 函 数 可 以 自由 地 对 图 像 存 储 的 格式 进行 转换 , 例如 将 jpg 文件 


转化 为 png 格式 的 文件 。 但 是 从 深入 到 更 低层 的 基础 上 看 ， 


任何 一 个 字 节 都 可 以 表示 成 0~255 


的 任何 一 个 数 。 在 程序 5-1 中 ， 笔 者 也 通过 创建 算 阵 并 显 式 的 方式 向 读者 展示 了 这 一 个 过 程 ， 


下 面 将 更 为 详细 地 描述 这 方面 的 内 容 。 


-个 OpenCV 图 片 由 一 个 array 类 型 的 多 维 数组 所 构成 ， 每 个 维度 默认 是 8 位 ， 那 么 一 个 


三 维 的 BGR 图 像 可 以 认为 就 是 一 个 24 位 的 三 维 数组 。 


既然 图 片 可 以 被 人 为 地 表示 为 一 个 多 维 数组 , 并 且 其 在 计算 机 中 存储 的 本 质 也 是 如 此 , 那 
么 可 以 通过 访问 平常 数组 的 形式 访问 这 些 值 。 例 如 img[0,0] 或 者 img[0,0,0]。 这 里 前 2 个 数 是 


像素 的 坐标 ， 第 三 个 值 显示 的 是 其 对 应 的 颜色 通道 。 

在 计算 机 中 存储 的 时 候 , 任何 一 个 图 片 的 存储 都 占有 
便于 在 有 限 的 内 存 中 更 进一步 地 转换 ， 对 于 每 个 图 片 来 说 ， 
其 转化 成 标准 的 一 维 Python bytearray 格式 : 

使 用 的 方法 如 下 : 

imageByteArray = bytearray (image) 


程序 打印 结果 如 图 5-3 所 示 。 


- 定 的 空间 , 而 为 了 减少 图 片 的 存储 
可 以 通过 Python 自 带 的 方法 ， 将 


B\xfa\xfe\xfb\xfd\xff\xfd\xff\xff\xfd\xff\xff\xfd\rff\xff\xfd\rff\xff\xfe\zff\xff 
\xfc\xf8\zfd\xff\rfb\zff\zff\rfc\zff\zff\xfb\zff\zff\xfb\zff\zfl\zred\zrf3\re2\xde 
\xfd\xfd\zfd\xfd\xfd\zfe\zxfe\xfe\zfe\rfe\xfe\zfe\xfe\xfe\rfe\rfe\xfe\rfe\rfe\rfe 
\xfd\xfe\xfe\xfe\xfe\rfe\xfe\xff\rff\rff\xff\zff\rff\xfe\xfe\rfe\xfe\xfe\rfe\xfd 
\xfd\xfd\xfd\xfe\xfe\xfe\xff\xff\xff\zfe\xfe\zfe\zfd\xfd\xfd\zff\xf9\xfe\zfd\xf7 
\xfe\xfe\xff\xff\xff\rff\rff\rff\rfe\rfe\rfe\rfe\rfe\xfe\xfe\rfe\xfe\xfe\xrfe\xfe 
\xfe\zff\zfe\xff\xff\zfe\xff\xff\zfd\zff\xff\zfd\xff\xff\zfd\zff\xff\zfd\xff\xff 
\xfc\xf9\xfb\xfd\xfa\zrfc\xff\rfd\rff\rff\rfe\r se xfb\xf6\xf8\xeg\xe3 












xd5\xcb\xdb\xe: 
zdA\xcT\xdf\zdO\zc: \xf3\zef\xf5 
d9\xd3\zc9\xe0\zdl \zc6\ze0\zda\zd0\z \xd9\xdO\ze4\zxdc 
\Vzf8\zf2VzfdVzfc\zfTVzff\zfS\Vzf0\Vzfg\ze6\rel\VzeaVzel\zdcVze5Vzec\zeTVzf0\zfS\zf3 





5-3 ”Python bytearray 的 存储 格式 


图 5-3 中 显示 的 只 是 一 部 分 数值 ， 具 体 可 以 请 读者 自行 打印 验证 。 
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同样 ，bytearray 可 以 通过 矩阵 重 构 的 方法 还 原 为 原本 的 图 片 矩 阵 ， 代 码 如 下 : 


np 是 前 期 导入 的 NumPy 模块 的 简称 ， 通 过 其 array 方法 读 取 已 经 被 转化 后 的 数组 文件 ， 
之 后 重新 将 其 重 构成 一 个 [300,300] 的 矩阵 。 完 整 代码 如 下 : 


【程序 5-2】 





程序 5-2 描述 了 将 生成 的 一 个 [300.300] 的 矩阵 按 数 组 的 形式 转化 并 打印 ， 之 后 通过 调用 
NumpPy 中 数组 处 理 函数 重新 将 其 重 构 并 显示 。 有 具体 内 容 请 读者 自行 完成 。 


【程序 5-3】 





程序 5-3 为 读者 展示 了 随机 生成 的 一 个 长 度 为 120000 的 数组 ， 之 后 将 其 重 构 为 [300,400] 
的 矩阵 ， 之 后 将 其 在 显示 器 上 显示 。 


5.1.4 使 用 NumPy 模块 对 图 像 进 行 编辑 


本 章 的 前 面 3 节 对 一 幅 图 像 在 计算 机 中 的 生成 存储 以 及 OpenCV 操作 有 了 基本 的 介绍 。 
但 是 掌握 这 些 基本 内 容 还 不 够 ,对 图 像 处 理 来 说 ,需要 更 多 的 手段 和 方法 对 其 进行 操作 和 处 理 。 
前 面 也 通过 代码 进行 演示 ，OpenCV 中 最 便捷 的 、 获 取 图 像 的 方式 是 使 用 imread 函数 来 
读 取 数 据 。 该 函数 能 够 从 目标 位 置 读 取 一 个 图 像 ， 这 个 被 读 取 的 图 片 是 一 个 数组 ， 并 且 根据 设 
置 的 不 同 ， 该 图 像 可 能 是 2 维 的 也 可 能 是 3 维 的 。 
下 面 一 个 简单 的 例子 说 明了 如 何 通过 对 数组 的 操作 修改 图 片 的 颜色 。 


【程序 5-4】 


img = np.zeros((300,300) ) 

img[0,0] = 255 

cv2.imshow ("img",img) 

cv2 .waitKey (0) 

程序 5-4 中 ， 生 成 了 一 个 [300,300] 的 黑色 方块 ， 之 后 将 矩阵 的 [0，0] 位 置 修改 为 数值 255， 
用 颜色 表示 的 话 就 是 白色 的 一 个 点 , 那么 整体 结果 就 是 一 个 方块 的 左上 角 有 一 个 白色 的 点 。 具 
体 如 图 5-4 所 示 。 








图 54 具有 一 个 白 点 的 黑 


而 如 果 需 要 对 一 行 或 者 一 列 进行 操作 ，NumPy 同样 提供 了 方便 的 操作 方法 ， 如 程序 5-5 
所 示 。 


【程序 5-5】 
import cv2 
import numpy as np 
img = np.zeros((300,300)) 
img[: ,10] = 255 
img[10,: ] = 255 
cv2.imshow ("img",img) 


cv2 .waitKey (0) 


这 样 的 操作 是 对 生成 的 黑色 图 片 进 行 操作 ， 画 出 了 横竖 2 条 白 线 ， 具 体 如 图 5-5 所 示 。 
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使 用 NumPy 数组 操作 的 方式 对 图 片 进行 处 理 主要 的 原因 有 以 下 两 个 : 首先 NumPy 是 专 
门 进行 数组 操作 的 Python 模块 ， 有 很 多 专门 的 处 理 函 数 能 够 完成 更 多 的 任务 ; 其 次 ， 其 在 性 
能 上 是 经 过 专门 的 优化 ， 在 规模 较 大 的 数据 矩阵 上 有 更 好 的 操作 性 。 











各 使 用 同样 的 方法 可 以 对 矩阵 的 一 个 块 进 行 操作 ， 这 个 操作 请 读者 自行 完成 。 | 











5. 2 OpenCV 的 卷 积 核 处 理 


在 上 一 节 中 ,介绍 了 基本 的 图 像 创建 等 操作 ， 读 者 对 使 用 OpenCV 对 图 像 进 行 最 基本 的 
操作 有 了 一 个 了 解 。 但 是 对 图 像 进行 读 取 仅仅 是 一 个 最 基本 的 开始 , 对 图 片 的 处 理 才 是 读者 需 
要 真正 掌握 的 内 容 。 


5.2.1 计算 机 视觉 的 三 种 不 同色 彩 空间 

色彩 学 中 ， 人 们 建立 了 多 种 色彩 模型 ， 以 一 维 、 二 维 、 三 维 甚至 四 维 空间 坐标 来 表示 某 一 
色彩 ， 这 种 坐标 系统 所 能 定义 的 色彩 范围 即 色彩 空间 。 

OpenCV 中 可 以 操作 和 使 用 的 色彩 空间 有 上 百 种 之 多 , 但 是 对 于 计算 机 视觉 处 理 来 说 ， 
般 常用 的 色彩 空间 有 三 种 ， 即 灰 度 、BGR 以 及 HSV。 


@ ”次 度 : 将 图 片 中 的 彩色 信息 去 除 ， 只 保留 黑白 信息 的 色彩 空间 称 为 灰 度 空间 。 一 般 而 
言 灰 度 空间 对 人 脸 的 处 理 特别 有 效 。 

@ BGR: 即 蓝 绿 红 空间 。 在 这 个 空间 中 ， 每 个 像素 都 是 由 一 个 三 维 数组 表示 ， 分 别 代 
表 蓝 、 绿 、 红 这 三 种 颜色 。BGR 也 是 OpenCV 主要 的 色彩 空间 。 

@ HSV: H 是 色调 ，S 是 饱和 度 ，V 是 黑色 度 ， 一 般 用 在 数字 相机 对 彩色 图 片 的 处 理 。 



































| 在 学 到 前 一 小 节 和 本 小 节 的 时 候 , 可 能 会 有 读者 去 尝试 使 用 不 同 的 颜色 合成 对 彩色 图 片 进 
行 操作 , 但 是 色彩 合成 的 结果 并 不 是 如 文字 描述 的 那样 。 这 实际 上 是 由 于 显示 器 的 显示 色 
| 素 不 同 造成 的 差异 ， 这 点 请 读者 不 要 怀疑 OpenCV 的 显示 差异 。 














5.2.2 ” 卷 积 核 与 图 像 特 征 提取 


在 OpenCV 甚至 于 平常 的 图 像 处 理 中 ， 卷 积 核 是 一 种 最 常用 的 图 像 处 理工 具 。 其 主要 是 
通过 确定 的 核 块 来 检测 图 像 的 某 个 区 域 ,之 后 根据 所 检测 的 像素 与 其 周围 存在 的 像素 的 亮度 差 
值 来 改变 像素 明亮 度 的 工具 。 

例如 : 


kernel33 = np.array[[-1,-1,-1], 


68 





第 5 章 ”OpenCV 的 基础 使 用 


这 是 一 个 [3,3] 的 卷 积 核 ,其 作用 是 计算 中 央 像素 与 周围 临近 像素 的 亮度 差 值 。 如 果 亮 度 差 
值 差距 过 大 ， 本 身 图 像 的 中 央 亮 度 较 少 ， 那 么 经 过 卷 积 核 以 后 ， 中 央 像素 的 亮度 会 增加 。 即 如 
果 一 个 像素 比 他 周围 的 像素 更 加 突出 ， 就 会 提升 其 本 身 的 亮度 。 

而 与 之 相反 的 是 : 


这 个 核 的 作用 就 是 减少 中 心 像素 的 亮度 , 如 果 一 个 像素 比 其 周围 的 像素 更 加 昏暗 , 就 会 更 
进一步 地 减少 。 


【程序 5-6】 











程序 5-6 执行 结果 如 图 5-6 所 示 。 





5-6 执行 降低 亮度 后 的 图 片 
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对 于 程序 5-6， 首 先 需要 介绍 的 是 ndimage， 这 是 一 个 处 理 多维 图 像 的 函数 库 ， 其 中 包括 
图 像 滤 波 器 、 傅 立 叶 变换 、 图 像 的 旋转 拉 伸 以 及 测量 和 形态 学 处 理 等 。 

这 里 使 用 上 文 定义 的 一 个 3X3 卷 积 核 ， 这 个 核 的 作用 是 将 读 入 的 图 像 进行 颜色 降低 。 但 
是 由 于 卷 积 核 降低 的 程度 较 大 , 最 后 完全 造成 了 失真 , 使 得 图 片 失去 了 能 够 表现 其 形式 的 特征 


图 谱 。 











| | 
L 经 网 络 中 ， 将 大 量 用 到 ， 这 点 请 读者 注意 一 下 。 








如 果 换 一 种 卷 积 特征 提取 的 方法 ,借用 高 斯 模糊 , 这 也 是 一 种 特征 提取 的 常用 函数 ,那么 
其 结果 如 图 5-7 所 示 : 








5-7 采用 Gauss 模糊 处 理 后 提取 的 图 像 特征 


【程序 5-7】 
import numpy as np 
import cv2 
from scipy import ndimage 


img = cv2.imread("lena.jpg",0) 

blurred = cv2.GaussianBlur (img, (11,11),0) 

gaussImg = img - blurred 

Cv2.imshow ("img",gaussImg) 

cv2.waitKey() 

程序 5-7 为 读者 展示 了 使 用 高 通 滤波 后 处 理 的 图 像 , 之 后 求 得 高 通 滤波 图 与 原始 图 的 差 值 
并 显示 ,更 好 地 对 图 像 的 特征 进行 提取 ,这 也 是 一 种 特征 提取 的 常用 方法 。 实际 上 ,这 也 是 现 
实 中 最 常用 的 方法 。 


5.2.3” 卷 积 核 进 阶 


在 OpenCV 中 ， 大 多 数 对 图 像 处 理 的 函数 都 会 使 用 内 置 的 卷 积 核 。 卷 积 核 在 前 面 已 经 介 
绍 了 ， 是 通过 NumPy 创建 一 个 三 维 数组 来 实现 卷 积 核 的 形式 。 下 面 的 程序 段 实现 了 一 个 卷 积 
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核 的 计算 : 





通过 传 入 的 矩阵 ， 计 算 经 过 卷 积 处 理 后 的 结果 以 newMat 的 形式 返回 。 具体 结果 请 读者 自 
行 测试 完成 。 

通过 上 面 的 代码 段 可 以 看 到 , 实际 上 所 谓 的 卷 积 核 就 是 一 组 被 赋予 初始 值 的 权重 , 它 决定 
了 如 何 对 已 有 的 像素 块 取 值 来 计算 新 的 像素 块 。 卷 积 核 也 称 为 卷 积 和 矩阵， 其 作用 是 对 一 个 区 域 
内 的 临近 像素 做 出 计算 ， 这 种 计算 又 被 称 为 卷 积 计算 。 而 通常 基于 核 的 滤波 器 被 称 为 卷 积 滤波 
器 。 

OpenCV 中 也 提供 了 常用 的 卷 积 核 函 数 一 fileter2D， 这 是 通过 程序 设计 人 员 指 定 的 任意 
核 或 者 卷 积 矩阵 与 目标 矩阵 进行 计算 。 为 了 更 好 地 讲解 请 参考 图 5-8。 
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图 5-8 ” 卷 积 核 的 计算 形式 


卷 积 核 是 一 个 二 维 数组 , 其 中 一 半 使 用 的 是 奇数 行列 进行 标识 。 中 心 点 对 应 于 当前 计算 图 
像 中 最 感 兴趣 的 像素 位 置 。 其 他 元 素 对 应 于 像素 周边 的 临近 像素 点 ， 每 个 元 素 都 有 一 个 值 ， 这 
些 值 合 在 一 起 被 称 为 像素 上 的 权重 。 

例如 图 5-8 中 感 兴趣 的 像素 权重 为 -4， 而 其 临近 像素 的 值 为 0 或 者 1。 计 算 过 程 是 对 于 感 
兴趣 的 值 乘 以 -4， 之 后 与 周围 的 邻近 像素 计算 机 进行 计算 。 在 图 5-8 中 ， 要 求 感 兴趣 的 值 要 低 
于 周边 的 值 ， 那 么 通过 卷 积 核 的 计算 以 后 ， 这 个 值 被 人 为 地 加 大 差距 。 顺 便 一 提 的 是 这 个 处 理 
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会 让 图 像 锐 化 , 因为 该 像素 值 的 值 与 周边 值 的 差距 增 大 。 而 如 果 人 为 地 减少 某 个 目标 像素 值 和 
周边 值 的 差距 的 话 ， 那 么 会 让 整个 图 片 钝 化 。 
filter2D 的 具体 使 用 如 下 : 





其 中 sre 是 目标 图 片 ，-1 指 的 是 每 个 目标 图 片 的 通道 位 深 数 ， 一 般 要 求 目标 图 片 和 生成 图 
片 的 位 深 数 一 样 。Kernel 是 图 片 所 使 用 的 卷 积 核 和 矩阵 。 

这 里 需要 注意 的 是 , 卷 积 核 中 所 有 的 权重 相 加 的 和 为 0。 这 样 做 的 目的 是 在 卷 积 核 完成 后 ， 
最 终 会 得 到 一 个 边缘 突出 的 图 像 卷 积 结果 ， 边 缘 被 转化 为 白色 ， 而 非 边缘 区 域 被 转化 为 黑色 。 











二 锐 化 、 边 缘 检 测 以 及 模糊 效果 处 理 ， 都 需要 使 用 不 同 的 核 | 





5 .3 本 章 小 结 


本 章 介绍 了 色彩 空间 的 理念 ， 学 习 了 基本 OpenCV 的 图 片 读 取 以 及 二 进 制 的 转换 ， 这 在 
后 续 图 片 存储 时 作用 很 大 ， 很 多 已 有 的 标准 图 片 库 都 是 使 用 此 种 方式 对 图 片 进 行 存储 的 。 

此 外 还 着 重 介 绍 了 卷 积 核 的 使 用 , 说 明了 卷 积 核 的 计算 形式 和 本 质 特点 , 这 些 内 容 在 后 续 
的 卷 积 神经 网 络 中 都 有 非常 重要 的 作用 。 本 章 内 容 虽 然 不 多 , 但 是 很 重要 , 希望 读者 能 够 认真 
学 习 掌握 。 
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在 上 一 章 中 ， 对 OpenCV 已 经 做 了 一 个 较为 基础 的 介绍 ， 向 读者 介绍 了 最 基本 的 图 片 的 
读 取 和 对 其 进行 卷 积 化 的 操作 。 除 此 之 外 ，OpenCV 还 有 各 种 不 同 的 模块 ， 例 如 视频 的 实时 获 
取 、 摄 像 头 定 位 、 目 标识 别 、 运 动 分 析 等 ， 这 些 都 是 在 TensorFlow 中 需要 使 用 的 内 容 。 

本 章 将 继续 介绍 OpenCV 的 使 用 ， 主 要 偏重 于 图 片 的 调节 ， 这 是 使 用 TensorFlow 进行 图 
像 处 理 中 非常 重要 的 一 个 部 分 。 图 片 的 数据 量 也 是 TensorFlow 进行 图 片 识别 的 基础 ， 因 此 使 
用 OpenCV 进行 图 片 训练 时 ， 需 要 大 量 的 图 片 数 据 ， 而 OpenCV 提供 的 多 种 函数 可 以 对 图 片 
进行 修改 从 而 提供 更 多 的 基础 数据 ， 并 且 对 图 片 特征 的 提取 也 能 够 在 训练 过 程 中 辅助 
TensorFlow 的 训练 工作 。 


图 片 的 自由 缩放 以 及 边缘 裁 草 


图 像 的 基本 处 理 一 般 是 对 图 片 的 扩 缩 裁 挖 ,， 指 的 是 对 一 张 图 片 进行 扩展 、 缩 减 、 裁 前 或 者 
在 图 片 中 挖 去 一 部 分 形成 一 个 新 的 图 片 。 当 然 除 此 之 外 还 有 对 图 片 的 偏 移 倾斜 等 操作 , 同样 可 
以 生成 一 个 在 计算 机 视觉 上 的 新 图 片 ， 这 些 内 容 本 章 会 一 一 介绍 。 


6.1.1 图 像 的 扩 缩 裁 控 

首先 对 于 图 片 的 扩 缩 来 说 ，OpenCV 提供 了 一 个 非常 简单 的 函数 对 图 片 进 行 操作 ， 
cv2.resize 函数 可 以 非常 简单 地 实现 对 函数 的 缩放 。 其 使 用 方法 如 下 : 

img = cv2.resize(dst, (m,n)) 

resize 函数 内 有 2 个 参数 ， 第 一 个 是 目标 图 像 ， 第 二 个 是 其 缩减 的 比例 。 

从 数值 上 看 ， 这 里 是 一 个 [300,300] 的 矩阵 ， 和 矩阵 中 每 个 具体 数值 为 0。 但 是 从 图 片 角度 来 
看 ， 这 里 笔者 创建 了 一 个 300X300 像素 的 图 片 ， 其 中 每 个 像素 点 的 颜色 为 黑色 。 

下 面 如 果 通 过 OpenCYV 代码 显示 这 张 图 片 的 话 ， 代 码 如 下 : 


cv2.imshow ("test",img) 





cv2 .waitKey (0) 
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可 以 看 到 , 将 一 个 图 片 读 取 到 内 存 中 , 之 后 重新 对 其 构造 , 将 其 改变 成 300X300 的 矩阵 ， 
但 是 此 时 可 以 看 到 ， 图 片 的 整体 没有 变化 ， 只 是 外 形 发 生 了 变化 。 
下 面 继续 看 ， 如 果 需 要 对 图 片 进行 截取 ， 则 需要 用 到 以 下 的 函数 : 


这 个 函数 是 指使 用 截取 的 方法 对 图 片 进行 截取 , 其 中 m:n 以 及 k:g 分 别 是 图 片 截取 空间 的 
大 小 。 截 取 前 后 的 效果 对 比如 图 6-1 所 示 。 








图 6-1 截取 后 的 图 片 


6.1.2 图 像 色 调 的 调整 


cv2 除了 能 够 对 图 像 的 区 域 进行 设置 、 自 由 拉 伸 和 裁剪 已 有 的 图 像 ， 同 样 可 以 像 读 者 用 过 
的 图 片 软件 操作 工具 一 样 对 图 片 的 色彩 和 亮度 进行 调节 处 理 ， 即 上 文 所 介绍 的 对 图 片 的 HSV 
进行 处 理 。 

HSV 中 ，H 指 的 是 色调 ，S 是 饱和 度 ，V 是 明暗 度 。OpenCV 采用 HSV 对 色彩 进行 处 理 
的 最 大 的 好 处 就 是 可 以 在 操作 时 忽略 图 像 的 三 通道 性 质 ， 直 接 通过 操作 HSV 进行 处 理 。 而 对 
于 具体 的 数值 ，H 的 取 值 是 [0,180]， 其 他 2 个 通道 的 取 值 是 [0,255]。 程 序 6-1 给 出 改变 色调 的 
处 理 结果 ， 从 图 中 的 整体 色调 中 ， 每 个 像素 点 减 去 30 个 单位 的 色调 ， 即 黄色 被 大 幅度 消减 。 


【程序 6-1】 





结果 如 图 6-2 所 示 。 


74 






第 6 章 OpenCV 与 TensorFlow 的 融合 


其 中 需要 讲解 的 是 等 式 左边 的 参数 , 方 括号 中 第 一 个 和 第 二 个 参数 分 别 代表 图 像 矩阵 的 从 
标 ， 第 三 个 参数 分 别 代表 其 HS V 的 选择 ，0 指 的 是 色调 ，1 指 的 是 饱和 度 ，2 是 明暗 度 。 
如 果 需 要 对 图 像 的 饱和 度 和 明暗 度 进行 调节 ， 程 序 如 下 : 


【程序 6-2】 





程序 6-2 改变 了 图 像 的 饱和 度 ， 使 之 色调 变 灰 ， 并 减少 一 定 的 颜色 艳丽 程度 。 明 暗 度 的 改 
变 请 读者 自行 完成 。 

而 对 于 更 进一步 的 处 理 ， 例 如 提高 细节 ， 这 里 就 需要 使 用 Gamma 计算 ， 虽然 在 Gamma 
变换 主要 是 为 了 减少 计算 机 视觉 与 人 眼 视觉 的 差异 而 做 出 的 计算 方式 , 但 是 在 深度 学 习 中 , 可 
以 作为 噪音 修改 的 方式 增 大 数据 量 ， 如 程序 6-3 所 示 。 


【程序 6-3】 





TensorFlow 深度 学 习 应 用 实践 


Plt.subplot (122) 
Plt.imshow (img corrected) 
plt.show() 


6.1.3 图像 的 旋转 、 平 移 和 翻转 

对 图 像 的 旋转 、 平移 以 及 翻转 变换 是 图 像 处 理 的 常用 手段 , 也 是 深度 学 习 对 图 片 处 理 的 常 
用 功能 ， 可 以 极 大 地 增加 数据 量 。 

OpenCV 中 图 像 的 变换 主要 是 通过 仿 射 变换 矩阵 和 函数 warpAffine() 完 成 。 仿 射 变换 矩阵 


的 解释 如 下 : 
M2= > to a 
ao a hb 


其 中 需要 说 明 的 是 ， 这 个 是 仿 射 变换 的 模板 ， 左 边 a 序号 是 线性 变换 矩阵 ， 而 右边 以 2 
命名 的 是 图 片 的 平移 项 。 
具体 使 用 的 例子 如 程序 6-4 所 示 。 


【程序 6-4】 
import cv2 
import numpy as np 
img = cv2.imread("lena.jpg") 
M copy img = np.array([ 

[0, 0.8, -100], 

[0.8, 0, -12] 

], dtype=np.float32) 
img change = cv2.warpAffine(img, M copy img, (300,300)) 
cv2.imshow ("test",img change) 
cv2.waitKey (0) 


其 中 M_copy_img 是 仿 射 变换 矩阵 , 这 里 前 2 个 矩阵 是 指 将 已 有 图 形 缩小 为 原来 的 80% 
后 逆 时 针 旋 转 90”， 之 后 向 左 平移 100 个 像素 ， 并 向 下 平移 12 个 像素 。 本 例 效果 如 图 6-3 
所 示 。 








图 6-3 仿 射 变换 后 的 图 片 
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本 寺 如 果 需 要 生成 大 量 的 图 像 ， 那 么 只 需要 在 仿 射 变换 矩阵 随机 生成 一 系列 数 ,， 即 可 获得 大 量 
\ 






的 随机 变换 图 片 ， 这 里 请 读者 自行 完成 。 











6.2 使 用 OpenCV 扩大 图 像 数据 库 


本 书 使 用 两 个 章节 介绍 了 OpenCV 的 基本 使 用 ， 这 些 不 仅仅 是 为 了 TensorFlow， 更 是 为 
了 对 图 像 训练 的 其 他 内 容 服 务 。 因 为 无 论 使 用 何 种 算法 和 框架 对 神经 网 络 进行 训练 ,图 片 的 数 
据 量 始终 是 一 个 决定 训练 模型 好 坏 的 重要 前 提 。 数据 扩展 是 训练 模型 的 一 个 常用 手段 , 对 于 模 
型 的 鲁 棒 性 以 及 准确 率 都 有 非常 重要 的 帮助 。 

本 节 将 介绍 使 用 OpenCV 在 已 有 的 图 片 数 据 集 上 通过 已 有 的 手段 对 其 进行 处 理 ， 人 为 地 
扩大 样本 量 的 方法 ， 从 而 达到 扩大 图 像 数 据 库 的 目的 。 


6.2.1 图 像 的 随机 裁剪 


图 片 的 随机 裁剪 是 一 个 常用 的 扩大 图 像 数据 库 的 手段 , 好 处 是 对 于 大 多 数 的 图 片 数 据 , 进 
行 模型 之 前 都 要 变 成 统一 大 小 。 昌 然 图 片 的 大 小 相同 , 但 是 不 同 的 裁剪 位 置 却 能 够 提供 更 多 的 
数据 样本 ， 从 而 提高 基本 的 图 片 数 据 库 内 容 。 

6-4 展示 了 采用 随机 数 的 方式 截取 图 像 的 一 个 简单 算法 。 

















Target Inage 























6-4 “” 仿 射 变换 后 的 图 片 


算法 首先 确定 需要 的 图 片 的 大 小 , 之 后 在 左上 角 计 算出 裁剪 后 剩 下 的 长 宽 , 之 后 在 其 中 随 
机 取得 一 点 作为 起 始点 从 中 截取 所 需要 的 面积 。 有 具体 代码 如 程序 6-5 所 示 : 


【程序 6-5】 
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这 里 自动 生成 了 9 个 截图 后 的 图 片 ， 请 读者 自行 完成 测试 。 


6.2.2 图像 的 随机 旋转 变换 


图 像 的 随机 旋转 变换 是 与 上 一 节 所 说 的 图 像 旋 转 平移 相 比 而 言 ,在 对 数据 库 文件 进行 扩大 
时 , 希望 整个 图 形 不 要 有 变化 ， 而 平移 或 者 旋转 在 操作 过 后 ,会 使 得 图 片 出 现 变 形 ， 虽然 有 时 
候 变形 的 图 片 可 以 更 好 地 对 深度 学 习 模 型 进行 训练 ,但 是 笔者 还 是 建议 读者 更 多 地 选择 使 用 真 
实 图 片 进 行 训练 。 

OpenCV 为 了 解决 整个 问题 ， 提 供 了 一 个 现成 的 函数 ， 即 getRotationMatrix2D 可 以 使 用 。 





从 代码 的 解释 来 看 ，getRotationMatrix2D 中 需要 提供 3 个 参数 ,分 别 是 center、angle 以 及 
scale。 第 一 个 参数 是 图 片 的 依托 中 心 , 也 就 是 以 哪 一 点 为 原点 进行 选择 。 第 二 个 参数 指 的 是 图 
片 逆 时 针 旋 转 的 角度 ， 第 三 个 参数 是 缩放 的 倍数 。 具 体 代码 如 程序 6-6 所 示 。 


【程序 6-6】 





img_change 是 对 图 像 进 行 了 变换 ， 而 warpAffine 对 图 片 重新 做 了 压缩 和 现实 。 图 6-5 是 
图 片 以 中 心 为 原点 ， 进 行 了 逆 时 针 45” 的 旋转 。 当 然 此 时 会 有 黑 边 ， 如 果 想 要 去 除 黑 边 的 话 ， 
那么 需要 重新 设 定 一 个 画 框 ， 这 里 笔者 就 不 再 补充 ， 请 读者 自行 完成 。 


第 6 章 OpenCV 与 TensorFlow 的 融合 





6-5 ”旋转 变换 后 的 图 片 








必 元 如 果 scale 使 用 默认 值 1， 敢 么 整个 计算 公式 可 以 理解 成 做 了 一 个 念 射 变换 的 秆 隆 。 | 











6.2.3 图像 色 彩 的 随机 变换 


本 节 中 最 后 一 种 方法 就 是 对 图 像 的 色彩 做 随机 变换 ， 因 为 图 像 在 OpenCV 中 是 以 HSV 形 
式 存储 ， 因 此 是 对 其 色调 、 饱 和 度 和 明暗 度 的 改变 。 
具体 内 容 请 参照 6.1.2 小 节 的 内 容 ， 程 序 代 码 如 程序 6-7 所 示 。 


【程序 6-7】 
import cv2 
import numpy as np 
img = cv2.imread("lena.jpg") 
img_hsv = cv2.cvtColor (img,cv2.COLOR BGR2HSV) 
turn_green hsv = img hsv.copy() 
turn green hsv[:,:,0] = (turn green hsv[:,:,0] + np.random.random() ) % 180 
turn green hsv[:,:,1] = (turn green hsv[:,:,1] + np.random.random() ) % 180 
turn green hsv[:,:,2] = (turn green hsv[:,:,2] + np.random.random() ) % 180 
turn green img = cv2.cvtColor(turn green hsv,cv2.COLOR HSV2BGR) 
Cv2.imshow ("test",turn green img) 
cv2.waitKey (0) 


代码 中 分 别 对 图 像 的 了 、S、YV 做 了 设 定 ， 并 进行 了 随机 化 的 调整 。 











对 于 HSV 的 设 定 ， 可 以 设 定 一 个 小 小 的 阔 值 ， 在 辣 值 范围 内 进行 调整 。 除 此 之 外 ， 还 可 
| 以 在 HSV 后 进行 一 次 Gamma 变换 ， 这 不 是 为 了 更 好 地 适应 人 眼 ， 而 是 在 图 像 中 加 入 一 
定 的 噪音 。 
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6.2.4 ”对 鼠标 的 监控 


使 用 鼠标 在 生成 的 图 片上 标记 出 目标 位 置 是 基本 的 数据 处 理 的 内 容 。 鼠 标 操 作 属于 用 户 接 
口 操作 ，OpenCV 中 同样 提供 了 能 够 对 鼠标 操作 的 函数 ， 这 一 部 分 功能 主要 由 mouse_event 完 
成 。 

mouse_event 函数 的 功能 是 监控 鼠标 操作 ， 对 鼠标 的 点 击 、 移 动 以 及 放 开 做 出 反应 ， 根 据 
不 同 的 操作 进行 处 理 。 

对 鼠标 的 监控 主要 通过 OpenCV 内 置 的 函数 完成 ， 其 事件 总 共有 10 种 ， 从 0~9 依次 为 : 





当 函 数 事件 完成 后 ， 会 返回 x、y 值 ， 分 别 代 表 事 件 发 生 时 的 (x,y) 坐 标 ， 窗 口 左 上 默认 为 
原点 ， 右 边 为 x 轴 ， 向 下 为 y 轴 。 


【程序 6-8】 
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当 鼠 标 被 按 下 ， 和 触发 鼠标 DOWN 事件 ， 位 置 点 被 记录 ; 之 后 当 鼠 标 被 弹 起 ， 重 新 记录 位 
置 点 。 之 后 OpenCYV 使 用 rectangle 函数 画 出 框 型 。 

这 里 需要 说 明 的 是 ， 在 定义 on_mouse 函数 时 ， 使 用 了 回调 函数 ， 自 动 将 调 入 方 传 入 函数 
内 部 ，rectangle 接受 调 入 的 img 图像， 在 其 上 做 出 图 像 显示 。 有 具体 内 容 请 读者 自行 完成 。 


.3 本章 4 结 


在 本 章 中 主要 学 习 了 采用 OpenCV 对 图 像 的 进 阶 处 理 ， 介 绍 了 使 用 OpenCV 对 图 片 进行 
自由 缩放 以 及 对 其 进行 旋转 平移 和 HSYV 方面 的 调整 。 

掌握 这 些 方 法 的 主要 目的 是 能 够 通过 这 些 方法 对 图 片 样本 数据 库 进 行 扩容 ,图 片 样本 库容 
量 的 多 少 是 对 样本 模型 训练 程度 好 坏 的 一 个 决定 性 因素 。 当 然 除 了 本 章 中 介绍 的 一 些 方法 , 还 
有 更 多 的 、 可 以 对 图 片 继续 微调 修改 的 其 他 方法 ， 笔 者 会 在 读者 后 续 的 学 习 中 逐一 介绍 。 
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Let’s play TensorFlow! 

相信 读者 在 读 到 本 章 的 时 候 一 定 怀 着 非常 Exciting 的 心情 , 但 是 别 忙 , 在 踏 入 复杂 和 烦人 
的 理论 学 习 之 前 ， 为 什么 不 先 在 “游乐 场 ” 里 玩 一 会 呢 。 

Google 在 大 力 推广 TensorFlow 的 同时 ， 还 在 网 上 发 布 了 一 个 新 的 网 站 一 一 TensorFlow 游 
乐 场 。 在 正式 讲解 TensorFlow 的 构建 源 代 码 和 背后 理论 之 前 ， 笔 者 想 向 各 位 读者 介绍 这 个 游 
乐 场 。 

通过 浏览 器 的 自由 操作 , 可 以 让 读者 按 自己 的 意愿 训练 自己 的 神经 网 络 , 并 将 结果 以 图 形 
的 形式 反馈 给 使 用 者 ， 以 便 更 加 便捷 地 理解 其 背后 复杂 的 理论 和 公式 。 

本 章 的 第 二 节 将 介绍 TensorFlow 的 一 些 基本 内 容 ， 全 部 是 基本 概念 和 一 些 术 语 ， 在 学 习 
过 程 中 可 能 有 些 枯燥 ， 因 此 笔者 建议 读者 一 边 玩 游乐 场 ， 一 边 看 这 些 内 容 ， 以 便 加 强 理解 。 


7. 1 TensorFlow 游乐 场 


NumPy 的 诞生 是 为 了 弥补 Python 本 身 数 组 的 局 限 性 。 Python 本身 的 数组 由 于 在 设计 时 就 
存在 局 限 性 ， 例 如 保存 的 对 象 是 指针 ， 在 进行 计算 时 ， 结 构 和 形式 比较 浪费 内 存 和 加 大 CPU 
的 运行 时 间 。 

其 次 相对 于 Python 本 身 的 array 模块 ， 虽 然 其 能 直接 保存 数值 ， 但 是 鉴于 array 本 身 的 设 
计 问 题 ，array 在 创建 和 计算 时 并 不 支持 多 维 函 数 ， 因 此 它 并 不 适合 数值 计算 。 


7.1.1 1wantto play a game 


请 读者 打开 网 址 http://playground.TensorFlow.org， 这 是 TensorFlow 游乐 场 的 首页 ， 如 图 
7-1 所 示 。 
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a Neural Network R 








Epoch Learing rate Activation Reguareation Regularizatio Problem type 
000,000 003 Tanh None 0 Classification 

FEATURES + — 2 HIDDENLAYERS OUTPUT 

Which 加 Testlo: 








个 回 四国; 





图 7-1 TensorFlow 首页 
TensorFlow 首页 的 最 上 面 中 文 翻译 为 “在 你 的 浏览 器 中 就 可 以 玩 神经 网 络 ! 不 用 担心 ， 
怎么 玩 也 玩 不 坏 哦 ! ”， 这 就 告诉 了 使 用 者 ， 在 这 个 游乐 场 中 ， 可 以 随意 在 这 里 玩 机 ， 而 不 会 
担心 把 什么 东西 弄 坏 。 








及 直 建议 读者 在 页 面 上 随意 点 点 ， 多 试 试 各 种 情况 ,开心 地 玩 一 下 , 不 要 担心, 不 会 弄 坏 什么 。 | 








第 一 步 首先 来 看 看 左边 的 DATA 框 体 ， 如 图 7-2 所 示 。 





图 7-2 不 同 的 数据 类 型 


从 图 标 上 可 以 看 到 , 这 里 的 每 组 数据 ， 都 是 不 同 数据 分 布 类 型 的 一 种 。 第 一 种 是 一 个 环形 
数据 分 布 ， 第 二 种 是 均匀 分 布 ， 第 三 种 是 集合 分 布 ， 最 后 一 种 是 交融 分 布 。 

而 且 从 图 上 可 以 看 到 ， 每 个 数据 集 都 具有 2 个 分 布 数据 ， 可 以 成 为 X 和 Y， 用 颜色 区 分 。 
可 以 这 样 说 , 神经 网 络 的 作用 就 是 通过 模型 的 建立 和 数据 的 训练 , 能 够 把 未 判定 位 置 的 数据 判 
定 清楚 。 

下 面 继续 看 左 侧 ， 在 数据 的 下 方 ， 还 有 对 输入 数据 特征 进行 调节 的 地 方 ， 如 图 7-3 所 示 。 
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Ratio of training to 
test data: 50% 
— 


Noise: 0 
@ -一 一 一 


Batch size: 10 
一 全 一 一 一 -一 


7-3 特征 微调 设置 


特征 微调 可 以 对 生成 数据 的 信息 做 进一步 的 设置 。 第 一 行 是 设置 多 少数 据 进行 训练 , 而 留 
下 多 少数 据 作 为 测试 使 用 。 第 二 行 拉杆 是 数据 集 内 噪声 的 多 少 ， 一 般 噪声 越 多 ， 训 练 越 困难 。 
而 第 三 行 是 模型 在 训练 时 每 次 放 入 的 数据 量 的 多 少 ， 需 要 注意 的 是 ， 越 多 的 数据 量 ， 并 不 会 增 
加 全 部 的 训练 时 间 ， 而 是 会 对 模型 的 更 新 有 影响 ， 这 点 在 后 续 的 讲解 中 会 有 介绍 。 

对 于 生成 的 结果 来 说 , 神经 网 络 的 工作 结果 实际 上 就 是 在 做 出 一 个 区 域 , 例如 橙色 点 完全 
落 在 橙色 的 区 域 〈 六 角形 外 ) 中 ， 而 蓝 色 的 点 完全 落 在 蓝 色 的 区 域 ( 六 角形 内 〉 中 ， 如 图 7-4 
所 示 。 





7-4 最 终 的 结果 分 类 


这 张 分 类 图 可 以 直接 地 看 出 , 蓝 色 的 数据 点 完全 落 在 蓝 色 的 框 体 中 ,而 橙色 的 数据 点 在 蓝 
色 的 外 围 ， 这 样 就 可 以 将 不 同 的 数据 分 开 。 


但 是 当 数 据 分 布 过 于 复杂 ， 例 如 图 7-5 这 样子 的 。 一 般 的 神经 网 络 就 难以 将 其 分 开 ， 这 就 
需要 增加 相关 的 神经 网 络 层 数 ， 如 图 7-6 所 示 。 
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meeee 


7-5 复杂 的 分 类 数据 


FEATURES 十 一 2 HIDDENLAYERS 


Which properties 

do you want to 

feed in? 导 
2 neurons 


2 The outputs are 
2 mixed with varying 
weights, shown 


x BP by the thickness of 
和 the lines. 
| 
X,X, This is the output | 
from one neuron | 
Hoverto see tt | 
larger 
sin(X1) 
sin(X>) 


7-6 神经 网 络 的 操作 


7-6 代表 神经 网 络 模型 的 设计 ， 这 里 最 上 面 的 加 号 是 对 隐藏 层 的 个 数 进行 加 减 ， 而 第 二 
个 加 号 是 对 每 个 单独 的 隐藏 层 中 节点 的 个 数 进行 加 减 的 设置 。 
还 有 一 个 部 分 如 图 7-7 所 示 。 
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Learning rate Activation Regularization Regularization rate 


0.03 ReLU None 0 





图 7-7 单独 的 属性 设置 
图 7-7 中 是 对 神经 网 络 模型 参数 进行 设置 , 在 这 里 可 以 设计 学 习 率 、 激 活 函数 以 及 回归 系 
数 等 。 这 些 属性 参数 是 神经 网 络 的 基本 参数 和 设置 内 容 ， 在 后 续 的 模型 学 习 中 会 进行 学 习 。 
图 7-8 展示 了 增加 隐藏 层 个 数 , 并 且 每 个 隐藏 层 的 神经 元 个 数 也 相应 地 增加 ,那么 可 以 看 
到 ， 最 终结 果 对 数据 的 分 类 可 以 比较 好 地 将 数据 按 颜 色 分 成 两 个 区 域 。 














sO HR re 
ee 
四 口 二 
Fn f fj 
; 省 加 :| 加 
人 器 仆 国 
A 
"BD 
四 口 量 














图 7-8 增加 隐藏 层 和 隐藏 层 节点 

如 果 通 俗 地 对 神经 网 络 进行 解释 , 若干 的 隐藏 层 都 会 相互 作用 , 对 输入 的 数据 进行 计算 和 
组 合 , 而 其 所 在 的 神经 网 络 下 一 层 又 会 对 这 一 层 的 输出 进行 再 次 计算 和 组 合 。 这 一 切 都 是 自动 
进行 的 。 

神经 网 络 的 迷人 之 处 在 于 ， 对 于 输入 数据 的 特征 提取 和 计算 , 并 不 是 需要 人 工 干预 , 而 是 
只 需要 给 予 足够 多 的 神经 网 络 和 神经 元 ， 神 经 网 络 会 自己 提取 和 计算 出 模型 和 结果 。 

而 且 从 输出 结果 上 来 看 , 当 神经 网 络 在 解决 蓝 橙 分 类 这 样 的 问题 时 ,对 于 现实 中 一 些 更 为 
复杂 的 问题 , 可 以 通过 增加 相应 的 隐藏 层 和 每 个 层 的 神经 元 来 确定 , 这 一 点 为 使 用 计算 机 解决 
现实 问题 打下 了 基础 。 





7.1.2 TensorFlow 游乐 场 背后 的 故事 


TensorFlow 游乐 场 在 潜移默化 中 使 用 了 人 工 神经 网 络 进行 数据 的 分 类 和 判定 。 对 于 此 ， 
用 WIKI 的 解释 为 : 当 神 经 元 接收 到 来 自 其 相连 的 神经 元 的 电信 号 时 , 它 会 变 得 兴奋 激活) 。 
神经 元 之 间 的 每 个 连接 的 强度 不 同 , 一 些 神经 元 之 间 的 连接 很 强 , 足以 激活 其 他 神经 元 , 而 另 
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一 些 连 接 则 会 抑制 激活 。 你 大 脑 中 的 数 千 亿 神 经 元 及 其 连接 一 起 构成 了 人 类 智能 ， 如 图 7-9 所 


习 
了 





7-9 生物 神经 元 网 络 


通过 生物 学 上 的 神经 元 进行 研究 导致 了 一 种 新 的 计算 机 模型 的 诞生 一 一 人 工 神经 网 络 。 借 
由 这 个 人 工 神经 网 络 , 使 用 者 可 以 使 用 模式 化 的 数学 模型 对 不 同 的 问题 进行 处 理 ， 并 获得 最 终 
的 解决 办 法 。 

前 面 TensorFlow 游乐 场 中 ， 由 若干 输入 数据 和 隐藏 层 不 同 层次 的 计算 ， 最 终 获 得 分 类 的 
结果 ， 如 图 7-10 所 示 将 公式 进行 简化 表现 。 


图 7-10 神经 元 模型 的 图 形 表示 


其 中 x~xn 是 一 系列 的 输入 值 , 而 wi~ws 是 权重 , 可 以 理解 为 输入 值 对 神经 元 连接 的 强度 ， 
而 单独 的 bp 是 bias, 即 最 终 计算 值 被 激活 所 需要 的 阔 值 。 如 果 将 这 个 图 形 模型 以 数学 公式 的 形 
式 表示 出 来 : 
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Swx, > 


可 以 看 到 , 所谓 的 神经 网 络 就 是 使 用 权重 对 输入 值 进行 计算 , 并 经 由 偏 置 值 进 行 检查 , 之 
后 将 计算 结果 进行 分 类 , 是 进行 下 一 层级 输出 或 者 直接 停止 输出 ,如果 输出 的 数据 是 二 维 分 类 ， 
那么 神经 元 最 终 可 以 形成 一 条 光滑 的 线段 将 数据 进行 分 类 ; 而 如 果 是 多 元 输出 的 话 , 神经 元 会 
使 用 平面 将 图 像 进行 分 类 ， 并 进行 投影 ， 即 一 个 超 平面 分 割 多 维 空间 。 


7.1.3 ”如 何 训练 神经 网 络 


通过 前 面 的 讲解 可 以 知道 , 神经 网 络 就 是 数学 激活 模型 的 一 种 实现 。 但 是 人 工 神经 网 络 与 
传统 的 特征 提取 训练 不 同 的 是 , 所 有 模型 的 参数 和 特征 都 是 由 训练 模型 自由 确定 和 完成 , 即 模 
型 在 训练 过 程 中 是 一 个 黑 盒 过 程 ， 所 训练 的 权重 模式 不 是 由 人 工 完成 的 。 

如 果 将 人 工 神经 网 络 看 作 一 个 在 学 习 阶 段 的 小 学 生 的 话 , 那么 在 神经 网 络 的 工作 和 计算 过 
程 中 ， 他 会 犯 很 多 错误 。 因 此 在 训练 的 过 程 中 ， 还 会 涉及 经 典 的 反 向 传播 和 梯度 下 降 等 算法 ， 
但 是 这 些 也 仅仅 是 为 了 让 人 工 神经 网 络 模型 在 计算 时 能 够 更 好 、 更 快速 地 取得 最 优 的 成 果 。 

另外 重新 回 到 7.1.1 小 节 一 开始 讲 的 对 简单 的 数据 分 类 ， 简 单 的 神经 网 络 可 以 很 好 地 完成 
分 类 ， 而 当 数据 变 得 更 加 复杂 、 两 组 数据 不 能 够 被 简单 地 分 开 时 ,， 即 当 数 据 由 线性 可 分 变 为 非 
线性 可 分 时 ， 就 需要 将 简单 的 神经 网 络 变 得 更 加 复杂 , 增加 更 多 的 隐藏 层 和 隐藏 层 节点 ， 如 图 
7-11 所 示 。 





+ 一 + 一 


4 neurons 2 neurons 


mixed with varying 
weights, shown 
by the thickness of 
the lines 


7 
-3 ~ The outputs are 
7 
上 


图 7-11 神经 元 模型 的 隐藏 层 
其 中 的 隐藏 层 有 若干 个 神经 元 节点 , 可 以 说 , 每 个 神经 单元 都 在 进行 相关 的 特征 分 类 , 例 
如 第 一 个 神经 元 检查 数据 点 的 颜色 , 第 二 个 检测 其 位 置 , 第 三 个 检测 其 距离 其 他 数据 的 相对 的 
位 置 。 
这 些 检测 的 结果 被 称 为 数据 的 基本 特征 , 神经 元 对 这 些 特征 检测 后 , 并 根据 输出 与 样本 的 
真实 分 类 加 强 或 减少 相应 特征 的 强度 ， 通 过 权重 的 形式 表示 出 来 。 
在 TensorFlow 游乐 场 中 演示 的 各 个 例子 ， 不 同 数 目的 隐藏 层 和 不 同 数 目的 神经 单元 对 应 
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不 同 的 功能 , 增加 更 多 的 层 和 数目 可 以 使 得 神经 网 络 更 加 敏感 ,从 而 能 够 建立 更 加 复杂 的 图 形 。 
更 多 神经 元 + 更 深 的 网 络 = 更 复杂 的 模型 


这 个 简单 的 公式 就 是 人 工 神经 网 络 能 够 进行 模式 识别 、 数 据 分 类 、 图 像 辨 认 的 基本 原理 。 
这 也 是 让 神经 元 变 得 更 加 聪明 ， 表 现 更 加 好 的 原因 。 


7.2 初 识 Hello TensorFlow 


Hello TensorFlow! 


忘记 在 游乐 场 的 欢 悦 与 兴奋 , 现在 开始 , 笔者 将 带领 读者 进入 TensorFlow 的 正式 学 习 中 。 


7.2.1 TensorFlow 名 称 的 解释 


首先 从 名 称 上 来 看 ，TensorFlow 是 由 2 个 单词 构成 ，Tensor 与 Flow。 其 中 Tensor 的 意思 
张 量 ， 而 Flow 的 意思 是 “ 飞 ”， 指 的 是 数据 流 图 的 流动 ， 那 么 合 在 一 起 的 意思 就 是 “让 张 量 
飞 ”。 TensorFlow 为 张 量 从 流 图 的 一 端 流动 到 另 一 端的 计算 过 程 ，TensorFlow 也 可 以 看 成 是 
将 复杂 的 数据 结构 传输 至 人 工 智 能 神经 网 中 进行 分 析 和 处 理 的 系统 。 

上 文 提 到 了 2 个 概念 ， 一 是 张 量 ， 二 是 数据 流 。 

张 量 (tensor) 理论 是 数学 的 一 个 分 支 学 科 ， 在 力学 中 有 重要 应 用 。 张 量 这 一 术语 起 源 于 
力学 , 它 最 初 是 用 来 表示 弹性 介质 中 各 点 应 力 状态 的 , 后 来 张 量 理论 发 展 成 为 力学 和 物理 学 的 
-个 有 力 的 数学 工具 。 张 量 之 所 以 重要 , 在 于 它 可 以 满足 一 切 物理 定律 必须 与 坐标 系 的 选择 无 
关 的 特性 。 张 量 概念 是 矢量 概念 的 推广 ， 矢 量 是 一 阶 张 量 。 张 量 是 一 个 可 用 来 表示 一 些 矢 量 、 
标量 和 其 他 张 量 之 间 的 线性 关系 的 多 线性 函数 。 

TensorFlow 用 张 量 这 种 数据 结构 来 表示 所 有 的 数据 。 用 一 阶 张 量 来 表示 向 量 , 如 : v = [1,2， 
3, 4,5]; 用 二 阶 张 量 表示 矩阵 ， 如 : m= [[1, 2, 3], [4, 5, 6], [7, 8, 9]]。 简 单 地 理解 ，TensorFlow 
中 的 张 量 ， 即 任意 维度 的 数据 ， 一 维 、 二 维 、 三 维 、 四 维 等 数据 统称 为 张 量 。 

在 介绍 flow 之 前 , 需要 知道 的 是 在 TensorFlow 中 , 数据 流 图 使 用 “ 结 点 ”(nodes) 和 “ 边 ” 
(edges) 的 有 向 图 来 描述 数学 计算 。“ 节 点 ” 一 般 用 来 表示 施加 的 数学 操作 ， 但 也 可 以 表示 
数据 输入 (feed in) 的 起 点 和 输出 〈push out) 的 终点 ， 或 者 是 读 取 / 写 入 持久 变量 (persistent 
variable) 的 终点 。“ 边 ”表示 “节点 ”之 间 的 输入 /输出 关系 。 

当 张 量 从 图 中 流 过 时 ， 就 产生 了 “flow”， 一 旦 输入 端的 所 有 张 量 准备 好 ， 节 点 将 被 分 配 
到 各 种 计算 设备 异步 并 行 地 完成 执行 运算 ， 即 数据 开始 “ 飞 ” 起 来 。 

这 就 是 这 个 工具 取 名 为 “TensorFlow” 的 原因 。 


7.2.2 TensorFlow 基本 概念 
在 介绍 了 完了 TensorFlow 名 称 的 来 历 后 ， 需 要 对 TensorFlow 基本 概念 进行 解释 。 
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在 TensorFlow 中 ， 集 成 了 很 多 现成 的 、 已 经 实现 的 经 典 机 器 学 习 算 法 ， 这 些 算 法 被 称 为 
算 子 Operation) ， 如 图 7-12 所 示 。 

















Category Examples 

Element-wise mathematical operations | Add, Sub, Mul, Div, Exp, Log, Greater, Less, Equal, ... 
Array operations Concat, Slice, Split, Constant, Rank, Shape, Shuffle, ... 
Matrix operations MatMul, MatrixInverse, MatrixDeterminant, ... 

Stateful operations Variable, Assign, AssignAdd, ... 

Neural-net building blocks SoftMax, Sigmoid, ReLU, Convolution2D, MaxPool, ... 
Checkpointing operations Save, Restore 

Queue and synchronization operations | Enqueue, Dequeue, MutexAcquire, MutexRelease, ... 
Control flow operations Merge, Switch, Enter, Leave, NextIteration 





图 7-12 实现 的 一 些 机 器 学 习 算 子 


图 中 左边 的 是 算 子 的 归 类 , 而 右边 是 算 子 的 具体 实现 。 可 以 看 到 ,每 个 算 子 在 定义 与 实现 
的 时 候 就 被 定 下 了 规则 、 方 法、 数据 类 型 以 及 相应 的 输出 结果 。 这 点 在 后 续 的 学 习 中 会 继续 介 
绍 。 

下 面 一 个 比较 重要 的 概念 是 “ 结 点 ” (nodes) 和 “ 边 ” (edges) 。 前 面 已 经 说 过 ， 节 点 
实际 上 指 的 是 某 个 输入 数据 在 算 子 中 的 具体 运行 和 实现 ，TensorFlow 是 通过 “ 库 ” 注 册 机 制 
来 定义 节点 ， 因 此 在 实际 使 用 时 ， 还 可 以 通过 库 与 库 之 间 的 相互 连接 来 进行 节点 的 扩展 。 

“ 边 ”分 为 两 种 , 一 是 正常 边 ， 即 数据 tensor 流动 的 通道 ,在 正常 边 上 可 以 自由 地 计算 数 
据 。 

第 三 种 边 是 一 种 特殊 边 ， 又 称 为 “控制 依赖 ” 边 ， 其 作用 是 控制 节点 之 间 相 互 依赖 ， 在 边 
的 上 一 个 节点 完成 运算 前 ,特殊 的 节点 不 会 被 执行 ， 即 数据 的 处 理 要 遵循 一 定 的 顺序 。 其 次 特 
殊 边 还 有 一 个 作用 是 为 了 多 线程 运行 数据 的 执行 ,让 没有 前 后 依赖 顺序 的 数据 计算 能 够 分 开 执 
行 ， 最 大 效率 地 利用 系统 设备 资源 。 

最 后 需要 介绍 的 一 个 概念 就 是 “会 话 ”(Session) 。 会 话 是 TensorFlow 的 主要 交互 方式 ， 

- 般 而 言 ，TensorFlow 处 理 数 据 的 流程 是 : 建立 会 话 、 生 成 一 张 空 图 、 添 加 各 个 节点 和 边 ， 
形成 一 个 有 连接 点 的 图 ， 然 后 启动 图 ， 进 行 系统 的 执行 。 

图 7-13 演示 了 一 个 会 话 的 基本 流程 ， 这 是 TensorFlow 最 常用 和 最 简单 的 会 话 模型 。 如 果 
将 图 7-13 的 模型 以 代码 的 形式 表现 出 来 ， 其 形式 如 程序 7-1 所 示 。 
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ma 
df 色 


7-13 ”会话 的 基本 流程 


【程序 7-1】 





这 是 一 个 最 简单 的 TensorFlow 运行 的 模型 ， 用 以 回归 计算 x、y 的 生成 曲线 ， 读 者 不 必 现 
在 就 掌握 这 个 模型 ， 只 需要 知道 ，TensorFlow 在 运行 会 话 前 ， 所 有 的 量 和 计算 函数 都 要 设置 
完成 ， 之 后 只 需要 直接 初始 化 数值 ， 使 之 在 对 话 中 运行 即 可 。 

这 里 需要 说 明 的 是 , 在 神经 网 络 计算 时 , 一 个 最 重要 的 内 容 就 是 梯度 的 计算 。 梯 度 计算 不 
仅仅 用 在 神经 网 络 中 ， 而 且 还 用 在 机 器 学 习 之 中 。 

在 TensorFlow 中 ， 当 一 个 图 在 正 向 计算 的 同时 ， 复 制 了 自身 生成 一 个 反 向 图 ， 当 达到 正 
向 图 的 最 终 输 出 后 ， 反 向 图 开始 工作 ， 由 最 终 的 结果 向 输入 端 计算 ， 如 图 7-14 所 示 。 


91 


TensorFlow 深度 学 习 应 用 实践 





图 7-14 复制 计算 图 进行 反 向 求 导 


实际 上 ， 在 具体 的 计算 时 ，TensorFlow 自 带 的 优化 算法 可 以 根据 资源 节点 的 配置 ， 自 动 
将 不 同 的 任务 分 配 到 不 同 的 节点 上 ; 同时 ， 有 时 候 用 户 也 可 以 手动 进行 任务 的 分 配 ， 达 到 资源 
的 最 优化 配置 。 


7.2.3 


TensorFlow 基本 架构 


前 面 介绍 了 TensorFlow 的 基本 概念 ， 对 其 中 一 些 计算 概念 和 流程 做 了 介绍 。 本 小 节 中 ， 
将 主要 在 基本 架构 上 ， 对 TensorFlow 的 基本 流程 做 更 进一步 的 描述 。 
首先 需要 对 几 个 概念 进行 介绍 : 


client: 用 户 会 使 用 ， 与 Master 和 一 些 worker process 交流 。 

master: 用 来 与 客户 端 交互 ， 同 时 调度 任务 。 

worker process: 工作 节点 ， 每 个 worker process 可 以 访问 一 到 多 个 device。 

device: TensorFlow 的 计算 核心 ， 通 过 将 device 的 类 型 、job 名 称 、 在 worker process 
中 的 索引 将 device 命名 。 可 以 通过 注册 机 制 来 添加 新 的 device 实现 ， 每 个 device 实 
现 需要 负责 内 存 分 配 和 管理 调度 TensorFlow 系统 所 下 达 的 核 运算 需求 。 


可 能 有 的 读者 使 用 过 分 布 式 系统 ,例如 Hadoop 或 者 Spark， 对 这 种 分 层 式 管理 并 不 陌生 。 
Master 是 系统 总 的 调度 师 ， 对 所 有 的 任务 和 工作 进行 调度 ; Client 提出 需求 ， 对 任务 做 出 具体 
的 设 定 和 结果 要 求 ， worker process 是 工作 节点 ， 是 单 任务 的 监视 器 ; device 是 任务 的 具体 执 
行 和 分 配 节点 ， 所 有 的 具体 计算 结果 都 在 device 下 进行 处 理 ， 如 图 7-15 所 示 。 
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图 7-15 TensorFlow 运行 调度 的 分 配 
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TensorFlow 分 为 单机 式 实现 和 分 布 式 实现 。 首 先 在 单机 式 实现 中 ， 任 务 由 客户 端 提出 ， 
之 后 会 话 将 任务 提交 给 单机 的 Master， 由 Master 分 配给 单机 的 任务 工作 单元 进行 计算 ， 任 务 
工作 单元 可 以 由 CPU 处 理 ， 也 可 以 给 GPU 分 配 任务 ， 这 看 程序 的 具体 设置 。 

而 在 分 布 式 实现 中 ， 客 户 端 产生 的 运行 命令 交 给 Master 去 处 理 ， 而 Master 将 任务 交 给 不 
同 的 worker precess 去 处 理 ， 具 体 的 worker precess 处 理 过 程 和 内 容 与 单机 版 的 一 样 。 

至 于 任务 的 哪 一 部 分 分 配给 哪个 计算 机 节点 处 理 ， 是 由 Master 根据 内 置 的 算 子 控制 ， 根 
据 不 同 节点 的 处 理 速度 和 运行 情况 操作 。 可 以 简单 地 理解 : 每 个 节点 使 用 一 个 计数 ， 当 一 个 节 
点 开始 运算 时 ， 计 数 被 设置 成 100， 之 后 随 着 任务 的 进行 ， 计 数 逐 渐 减 少 ; 当 任务 完成 时 ， 计 
数 变 为 0， 节点 重新 待机 ， 等 待 下 一 个 任务 的 来 临 。 

更 为 复杂 的 情况 和 更 多 需要 考虑 的 因素 这 里 笔者 就 不 再 进行 介绍 。 


了 .了 本 章 小 结 


本 章 首先 介绍 了 TensorFlow 游乐 场 ， 演 示 了 神经 网 络 运行 和 计算 的 能 力 与 机 制 。 随 着 读 
者 操作 的 增多 ， 可 以 看 到 神经 网 络 运行 的 机 制 其 实 非常 简单 ， 通 过 拥有 更 多 的 神经 元 和 深度 ， 
神经 网 络 能 提取 出 更 多 隐藏 的 特征 和 建立 更 复杂 的 模型 , 建立 更 加 抽象 的 层级 结构 , 解决 更 多 
的 现实 问题 。 

虽然 如 此 , 但 是 制约 神经 网 络 发 展 的 除了 模型 的 建立 , 最 大 的 一 个 问题 就 是 计算 能 力 的 挑 
战 ,因为 随 着 隐藏 层 的 增加 和 神经 元 的 增多 ,数据 的 计算 能 力 呈 现 指数 形式 增长 ， 因 此 要 求 承 
载 着 神经 网 络 模型 的 计算 系统 要 有 强大 的 计算 能 力 。 

为 了 得 到 更 好 的 结果 , 在 人 工 神经 网 络 进行 计算 的 时 候 , 还 需要 选择 不 同 的 激活 函数 、 设 
计 不 同 的 网 络 和 算法 、 进 行 大 量 的 尝试 性 计算 ， 这 些 都 是 训练 神经 网 络 所 需要 的 内 容 。 

在 Google 正式 推出 TensorFlow 之 前 , 已 经 有 了 很 多 类 似 的 平台 ， 有 的 还 取得 了 很 高 的 关 
注 度 和 应 用 程度 。Theano、Caffe、Torch 以 及 最 新 推出 的 PyTorch， 都 是 应 用 范围 相当 广泛 的 
神经 网 络 框架 。 

TensorFlow 在 设计 的 时 候 ， 就 吸取 了 每 一 个 平台 的 精华 和 优秀 的 设计 思想 ， 而 最 为 显眼 
的 是 易 用 性 、 跨 平台 性 以 及 高 效 的 可 扩展 性 ， 逐 渐 吸引 了 更 多 程序 员 的 关注 ，TensorFlow 就 
是 为 了 解决 这 些 问 题 而 诞生 , 基于 成 本 不 是 很 高 的 计算 设备 , 让 更 多 的 学 习 者 能 够 简单 地 掌握 
其 中 的 使 用 方法 。 
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第 8 章 
<Hello TensorFlow， 从 0 到 1 > 


Hello TensorFlow! 

从 本 章 开 始 ， 笔 者 将 正式 进入 TensorFlow 的 学 习 。 其 实 对 于 TensorFlow， 读 者 大 可 不 必 
想像 得 特别 困难 , 反而 应 该 简单 地 将 其 视 作 一 个 供 普 通 学 习 者 和 研究 者 使 用 的 、 好 学 易 懂 的 神 
经 网 络 平台 。 

TensorFlow 编写 使 用 的 是 Python 语言 ， 这 在 前 面 的 章节 中 ， 笔 者 已 经 带领 读者 初步 学 习 了 
Python 语言 的 基本 概念 和 语法 形式 ， 这 也 是 为 了 从 本 章 开始 的 TensorFlow 的 程序 设计 打下 基础 。 





TensorFlow 的 安装 


首先 对 于 读者 来 说 ， 使 用 TensorFlow 必须 先 要 安装 TensorFlow。 在 本 书 的 第 2 章 ， 笔 者 
带领 读者 安装 了 集成 多 个 Python 类 库 的 安装 程序 Anaconda。 这 将 帮助 读者 最 为 方便 地 安装 
TensorFlow 。 

1. 第 一 步 : Python 版 本 的 确定 

首先 是 对 于 Python 版 本 的 要 求 ，TensorFlow 要 求 在 Windows 安装 时 ，Python 最 低 版 本 号 
为 3.5， 因 此 这 里 笔者 建议 读者 选择 Anaconda 4.2 版 本 或 后 续 版 本 作为 安装 环境 。 

打开 Anaconda prompt, 输入 python 命令 , 可 以 查看 已 安装 的 Python 和 Anaconda 版 本 号 ， 
如 图 8-1 所 示 。 














图 8-1 查看 已 经 安装 的 Python 和 Anaconda 版 本 号 


2. 第 二 步 : TensorFlow 安装 

在 Anaconda 4.2 版 本 中 集成 了 最 为 常用 的 Python 第 三 方 类 库 , 可 以 使 用 conda list 命令 查 
阅 。 对 于 已 经 满足 安装 条 件 的 计算 机 ，TensorFlow 提供 了 较为 简单 的 安装 命令 。 

pip install -upgrade 
https://storage.googleapis.com/tensorflow/windows/cpu/tensorflow-0.12.0rc0-cp3 
5-cp35m-win amd64.whl 


使 用 此 命令 可 以 直接 下 载 和 安装 对 应 版 本 的 TensorFlow 程序 

通过 pip 安装 ， 是 一 种 常用 的 Python 类 库 安 装 方式 ， 会 提示 错 误 “Http error 404”。 出 现 
这 种 问题 一 般 情 况 下 是 网 络 连接 故障 所 致 ， 因 此 可 以 直接 将 https 及 后 面 的 地 址 复制 ， 并 粘贴 
到 浏览 器 地 址 栏 中 手动 下 载 文件 。 


https://storage.googleapis.com/tensorflow/windows/cpu/tensorflow-0.12.0rc0- 


cp35-cp35m-win amd64.whl 
之 后 重新 调用 pip 命令 安装 下 载 的 TensorFlow 安装 文件 。 
pip install 本 地 保存 地 址 \tensorflow_gpu-0.12.0rc0-cp35-cp35m-win amd64.whl 


胆 元 相对 于 本 地 安装 ， 笔 者 更 建议 


[ 升级 TensorFlow 所 依赖 的 类 库 





者 使 用 Anaconda prompt 在 线 安 装 的 方式 进行 ， 可 以 自 动 | 





3. 第 三 步 : 验证 Tensoflow 安装 

最 后 是 对 TensorFlow 程序 的 安装 验证 ， 在 Anaconda prompt 中 输入 以 下 代码 段 : 
import tensorflow as tf 

sess = tf.Session() 

a = tf.constant (1) 

b = tf.constant (2) 

print(sess.run(tf.add(a,b))) 

验证 Tensoflow 安装 如 图 8-2 所 示 。 


到 各 理 中 Aneconde Prompt python 





图 8-2 ”验证 TensorFlow 安装 
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当 Aa nconda prompt 显示 计算 结果 后 ， 恭 喜 您 ，TensorFlow 已 经 安装 完毕 。 


8 . 2 TensorFlow 常量 、 变 量 和 数据 类 型 


TensorFlow 用 张 量 这 种 数据 结构 来 表示 所 有 的 数据 ， 对 此 读者 可 以 把 一 个 张 量 想象 成 一 
个 nm 维 的 数组 或 列表 。 而 一 个 张 量 有 一 个 静态 类 型 和 动态 类 型 的 维 数 , 张 量 可 以 在 图 中 的 节点 
之 间 流 通 。 

因此 基于 特殊 的 数据 和 处 理 方式 ，TensorFlow 中 数据 类 型 也 会 因此 而 随 之 改变 ， 常 规 的 
数据 并 不 适合 TensorFlow 框架 的 使 用 。TensorFlow 本 身 定义 了 一 套 特殊 的 函数 ， 能 够 根据 需 
要 将 不 同 的 量 设 置 成 所 需要 的 形式 。 

使 用 TensorFlow 的 第 一 步 就 是 在 程序 中 引入 TensorFlow， 打开 PyCharm 新 建 工程 ， 如 网 
8-3 所 示 。 


图 Create project 





Loaation。 | DAworkspace\Helio Tensorfiow 
中 interpreter 史 3.5.2.at CAAMDWAnaconda3\python.exe 日 


| 新 | 








图 8-3 ”创建 TensorFlow 工程 文件 


右 击 工程 名 hello_ TensorFlow， 新 建 一 个 Python file， 在 弹出 的 对 话 框 中 输入 文件 名 
“hello_TensorFlow”， 单 击 OK 按钮 来 确定 ， 如 图 8-4 所 示 。 


国 New Python file 人 
Mame: 
Kind: | 项 python file | 


图 8-4 输入 文件 名 


之 后 出 现 PyCharm 程序 设计 和 界面 (如 图 8-5 所 示 ) ， 左 边 是 树 形 程序 框架 ， 右 边 是 程序 
编写 框 ， 对 程序 进行 编写 ， 而 最 下 方 是 程序 代码 执行 结果 ， 这 里 将 TensorFlow 测试 代码 复制 
到 编写 框 中 ， 右 击 文件 名 “hello_TensorFlow.py”， 在 弹出 的 菜单 中 选择 “run” 命 令 ， 即 可 运 
行程 序 。 
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面 寺 亲 - 旧 责 helo Tensorfiowpy x 
Diwortspaceytalo_ import tensorflow as tf 


I 
2 sess - tf.SsessionO) 
3 hello = tf.constant("hello,tensorflow") 
4 Po ee 

5 


Ue 


各 隐 类 时 全 未。 


nolomwonon EE ee 
站 Ry pace ello_TenaorEl on hello_ Toneorflom py 
Whelo. tensorflon” 


| Process fetshed mith ett code 0 
昌 
3 











ncn re 000 





8-5 ”PyCharm 使 用 界面 


下 面 将 对 代码 进行 详细 讲解 。 
首先 是 TensorFlow 包 的 引入 ， 其 代码 如 下 : 





这 里 将 TensorFlow 引入 到 程序 中 ， 可 以 使 得 后 续 的 程序 编写 使 用 现成 的 TensorFlow 包 ， 
另外 笔者 会 在 后 面 的 章节 中 将 TensorFlow 简称 成 tf， 这 点 请 读者 注意 。 
TensorFlow 中 的 常量 创建 方法 ， 其 代码 如 下 : 


其 中 ，'Hello, tensorflow!" 是 常量 初始 值 ，tf.string 是 常量 类 型 ， 在 平时 编写 时 可 以 省 略 。 


这 里 创建 了 一 个 以 常数 为 底 的 初始 值 ， 省 略 了 tfint 的 常量 类 型 。 
而 TensorFlow 中 变量 的 创建 方法 如 下 : 





【程序 8-1】 
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input2 = inputl 

sess = tf.Session() 

Print(sess.run(input2) ) 

程序 8-1 展示 了 一 个 被 定义 成 inputl 的 常量 和 一 个 被 定义 成 变量 的 input2， 其 值 分 别 为 1 
和 2， 此 时 将 inputl 的 值 和 input2 的 值 打 印 出 来 ， 之 后 调用 会 话 ， 使 图 完整 运行 后 ， 重 新 打印 
运行 后 的 值 ， 结 果 如 图 8-6 所 示 。 





Tensor(’Const:0”, shape=(),，dtype=int32) 
Tensor (“Variable/read:0”, shape=(),，dtype=int32) 
于 





8-6 程序 8-1 打印 结果 


从 中 可 以 看 到 ， 程 序 8-1 中 首先 对 inputl 进行 打印 ， 此 时 打印 结果 是 一 个 int32 类 型 的 张 
量 而 不 是 一 个 具体 的 数值 。 而 对 于 input2 来 说 ， 此 时 仍旧 是 read: 0 状态 ， 表 示 虽 然 其 被 赋予 
了 新 值 ， 但 是 并 没有 发 生 真实 值 的 改变 。 而 上 只 有 当 input2 在 会 话 中 执行 过 ， 才 能 够 真正 发 生 
真实 值 的 改变 。 

下 面 是 对 于 数据 结构 的 一 些 说 明 。 对 于 在 中 的 浮 点 型 数据 ， 需 要 知道 人 f 中 常用 的 有 两 种 : 
float32 与 float64， 这 两 种 在 作为 常量 使 用 的 时 候 没 什么 问题 ， 当 处 于 变量 的 创建 和 修改 时 会 
相互 影响 ， 这 里 笔者 建议 程序 编写 之 前 定义 好 数据 的 类 型 。TensorFlow 中 几 种 常用 的 数据 类 
型 参见 表 8-1。 


表 8-1 TensorFlow 中 几 种 常用 的 数据 类 型 


数据 类 型 说 明 数据 类 型 说 明 


| ttuintl6 11 人 vA 符 9 束 数 | | | 
Ltnoal6 lify 尝 碑 | | | 





除了 一 般 框架 中 常见 的 数据 常量 和 数据 变量 外 ，TensorFlow 还 存在 一 种 特殊 的 数据 类 型 
一 一 占 位 符 (placeholder) 。 因 为 TensorFlow 特殊 的 数据 计算 和 处 理 形式 ， 图 进行 计算 时 ， 可 
以 从 外 界 传 入 数值 。 而 TensorFlow 并 不 能 直接 对 传 入 的 数据 进行 处 理 ， 因 此 使 用 placeholder 
保留 一 个 数据 的 位 置 ， 之 后 可 以 在 TensorFlow 会 话 运 行 的 时 候 进行 赋值 。 

input1 = tf.placeholder (tf.float32) 


给 placeholder 是 占 位 符 的 函数 ， 其 中 的 参数 是 传 入 的 数据 类 型 ， 这 里 可 以 看 到 ， 当 定义 一 
个 参数 是 tffloat32 时 ， 传 入 的 参数 必然 也 必须 是 float32 类 型 的 ， 如 果 传 入 其 他 类 型 的 数据 ， 
系统 会 报错 。 这 点 在 后 续 的 程序 编写 时 会 讲解 到 。 
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【程序 8-2】 





程序 8-2 演示 了 使 用 占 位 符 进 行 输出 的 例子 ，inputl 和 input2 是 2 个 int 类 型 的 占 位 符 ， 
此 时 数据 并 不 能 直接 发 生 改 变 ， 而 是 在 会 话 进行 的 过 程 中 不 停 地 填 入 数据 集 进 行 数据 的 处 理 。 








趣 程序 8-2 的 一 些 具体 细节 在 8.3 节 解释 ， 和 希望 进一步 了 解 的 读者 可 以 跳 过 去 看 看 。 











读者 可 以 把 这 个 过 程 想 象 成 马克 沁 重 机 枪 (图 8-7)， 机 枪 平时 里 面 是 不 存储 任何 弹药 的 ， 
只 有 当 开火 时 ， 才 有 源源 不 断 的 子弹 被 送 入 机 枪 。 






8-7 马克 沁 重 机 枪 


同 理 占 位 符 在 平时 只 是 作为 一 个 空 的 张 量 在 TensorFlow 的 图 中 构成 一 个 边 ， 只 有 当 图 完 
全 启动 后 ， 才 有 真实 的 数据 被 填 入 和 计算 。 

在 程序 8-1 中 ,tfadd(inputl, input2) 是 TensorFlow 中 一 个 加 法 函数 ， 除 了 这 个 加 法 函数 之 
外 ，TensorFlow 还 提供 了 大 量 普通 计算 函数 供 程序 设计 使 用 ， 参 见 表 8-2。 


表 8-2 TensorFlow 中 几 种 常用 的 函数 











操 作 描 述 

meynmeNon) | 和 | 
tf.div(x, y, name=None) 
tf.abs(x, name=None) 求 绝对 值 

| tfneg(x, name=None) 取 负 (y= -x). | 
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操 作 


tf.sign(x, name=None) 


描 述 


( 续 表 ) 


返回 符号 y= sign(x)=-lifx<0;0ifx 一 0; 1 ifx>0. 





tfinv(x, name=None) 


取 反 





tf.square(x, name=None) 


计算 平方 (=x *x=x^2). 





tf.sqrt(x, name=None) 


开 根 号 (y=\sqrt{x} ={1/2}). 





tf.exp(x, name=None) 
tf.log(x, name=None) 


计算 e 的 次 方 
计算 log 





tf.maximuml name=None,) 


tf.minimum(x, y, name=None) 


返回 最 大 值 (x>y?x:y) 
返回 最 小 值 (x <y?x:) 








tf.cos(x, name=None 三 角 函 数 cosine 
tfsin(x, name=None 三 角 函 数 sine 
tftan(x, name=None) 三 角 函 数 tan 
tf.atan(x, name=None, 三 角 函 数 ctan 





下 面 补充 一 些 细节 问题 。 

首先 第 一 个 问题 。 在 程序 8-2 中 ，tf.add(inputl, input2) 是 TensorFlow 中 一 个 加 法 函数 。 前 
面 已 经 说 过 ，TensorFlow 是 以 图 的 形式 在 对 话 中 统一 运行 。 

引 add(inputl, input2) 就 是 这 样 运 行 的 一 个 函数 ， 从 深 一 步 的 源 代码 来 看 ， 这 里 括号 内 的 参 
数 inputl 与 input2 都 是 一 个 张 量 对 象 。 在 TensorFlow 设计 之 初 ， 就 鼓励 用 户 去 建立 复杂 的 表 
达 式 〈 如 整个 神经 网 络 及 其 梯度 ) 来 形成 计算 图 。 之 后 将 整个 计算 图 的 运行 过 程 交 给 一 个 
TensorFlow 的 对 话 ， 此 对 话 可 以 运行 整个 计算 过 程 ， 这 种 运行 方式 相 比 较 传统 一 条 一 条 的 执 
行 效率 高 得 多 。 

第 二 个 问题 ， 在 程序 8-2 对 占 位 符 传递 数据 时 ， 使 用 的 是 Feeding_dict 函数 。Feeding 是 
TensorFlow 的 一 种 机 制 ， 它 允许 你 在 运行 时 使 用 不 同 的 值 蔡 换 一 个 或 多 个 tensor 的 值 。 
feed dict 将 tensor 对 象 映射 为 NumPy 的 数组 (和 一 些 其 他 类 型 )， 同 时 在 执行 step 时 ， 
这 些 数组 就 是 tensor 的 值 。 





TensorFlow 和 矩 阵 计 算 


TensorFlow 中 矩阵 的 生成 与 计算 是 所 有 结构 计算 中 最 为 重要 和 复杂 的 ， 因 此 ， 本 章 将 抽 
出 一 节 重 点 介绍 TensorFlow 中 矩阵 的 生成 与 计算 。 
首先 创建 一 个 张 量 和 矩阵 , TensorFlow 中 使 用 常量 创建 函数 , 即 万 constant 来 创建 一 个 矩阵 。 


tf.constant ([1,2,3],shape=[2,3]) 


这 行 代码 创建 了 一 个 2 行 3 列 的 矩阵 ， 


却 要 求生 成 一 个 2 行 3 列 的 矩阵 ， 那 么 看 看 生成 的 结果 : 


让 人 2 
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| 
这 里 自动 生成 了 一 个 符合 要 求 的 矩阵 ,输入 的 数据 1、2、3 被 放 在 第 一 行 ,而 第 二 行 中 自 
动 由 第 一 行 ， 也 就 是 输入 的 数值 进行 补 完 。 这 是 TensorFlow 矩阵 生成 的 一 种 优化 结果 。 
如 果 想 随机 生成 矩阵 张 量 ， 则 需要 使 用 以 下 函数 ; 


以 上 这 三 个 函数 都 是 用 于 生成 随机 数 tensor 的 ， 尺 寸 是 shape。 


@ random_normal: 正 态 分 布 随机 数 ， 均 值 mean， 标 准 差 stddev。 

@ truncated_normal: 截断 正 态 分 布 随机 数 ， 均 值 mean， 标 准 差 stddev， 不 过 只 保留 
[mean-2*stddev,mean+2*stddev] 范 围 内 的 随机 数 。 

@ random_uniform: 均匀 分 布 随 机 数 ， 范 围 为 [minval,maxval]。 


对 于 已 经 生成 的 矩阵 ， 可 以 通过 tfshape(Tenson) 获 取 到 矩阵 张 量 的 形状 : 
tf.shapelTensor) 


对 于 需要 对 矩阵 重新 排列 的 用 法 来 说 ，tf.reshape(tensor, shape, name=None) 是 一 个 常用 的 
方法 。 与 NumPy 中 reshape 类 似 ， 其 是 将 矩阵 张 量 按 照 新 的 shape 重新 排列 。 
@ ”如果 shape=[-1]， 表 示 要 将 tensor 展开 成 一 个 list。 
@ ”如果 shape=[a,b,c,...]， 其 中 a,b,c,… 均 大 于 0， 那 么 就 是 常规 用 法 。 
@ 如果 shape=[a,-1,c,.….]， 此 时 b=-1，a,c,… 依 然 大 于 0， 这 表示 tf 会 根据 tensor 的 原 尺 
寸 ， 自 动 计算 b 的 值 。 


TensorFlow 中 几 种 常用 的 矩阵 函数 参见 表 8-3。 





表 8-3 TensorFlow 中 几 种 常用 的 矩阵 函数 














tfdiag(diagonal name=None) 返回 一 个 给 定 对 角 值 的 对 角 tensor 
#*diagonal is [1, 2, 3, 4] 
tf.diag(diagonal) 一 > 

[[1, 0, 0, 0] 

[0, 2, 0, 0] 





功能 与 上 面相 反 
求 一 个 2 维 tensor 足 迹 ， 即 对 角 值 diagonal 之 和 





tf.diag part(input name=None) 
tf.trace(x, name=None) 
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( 续 表 ) 

操 作 描 述 
tftranspose(a, perm=None, name='transpose) 调换 tensor 的 维度 顺序 

按照 列表 perm 的 维度 排列 调换 tensor 顺 序 ， 

如 定义 ， 则 perm 为 (n-1.…0) 

#°x’is [[1 2 3],[4 5 6]] 

tf.transpose(x) 一 > [[1 4], [2 5],B3 6]] 

# Equivalently 

tf.transpose(x, perm=[l 0) 一 > [[1 4],[2 5], [3 6]] 
tfmatmul(a, b, transpose_a=False, 矩阵 相 乘 
transpose_b=False, a_is_sparse=False, 
b_is_sparse=False, name=None) 


tf.matrix_determinant(input, name=None) 返回 方 阵 的 行列 式 

tfmatrix_inverse(input, adjoint=None, name=None) | 求 方 阵 的 逆 矩 阵 ，adjoint 为 True 时 ， 计 算 输 入 共 辆 矩阵 
的 逆 和 矩阵 

tfcholesky(input name=None) 对 输入 方 阵 cholesky 分 解 ， 


即 把 一 个 对 称 正定 的 矩阵 表示 成 一 个 下 三 角 矩 阵 L 和 
其 转 置 的 乘积 的 分 解 A=LL^T 








tfmatrix_solve(matrix, rhs, adjoint=None, 求解 tf.matrix_solve(matrix, rhs, adjoint=None, 
name=None) name=None) 
matrix 为 方 阵 ，shape 为 [M,M]，rhs 的 shape 为 [M,K]， 
output 为 [M,K] 


8 . 4 Hello TensorFlow 


Hello TensorFlow! 

前 面 章节 的 内 容 对 TensorFlow 的 基本 概念 有 了 一 个 大 概 介绍 。 可 能 有 的 读者 在 读 到 这 里 
会 很 证 异 ， 大 名 易 易 的 TensorFlow 怎么 会 这 么 简单 。 从 代码 量 上 来 看 ，TensorFlow 主要 是 利 
用 已 有 的 函数 去 实现 一 些 具体 的 计算 。 

然而 事实 是 这 样 的 吗 ? 

与 Hadoop 类 似 ，TensorFlow 有 自己 的 入 门 程序 : Hello Regular Network。 

先 来 看 看 一 个 回归 分 析 的 具体 应 用 。 图 8-8 是 一 个 需要 设计 的 神经 网 络 , 这 里 准备 建立 一 
个 有 一 个 隐藏 层 的 神经 网 络 去 实现 回归 分 析 ， 这 个 神经 网 络 有 输入 层 、 隐藏 层 与 输出 层 。 程序 
8-3 具体 实现 了 这 个 神经 网 络 模 型 。 
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Hello TensorFlow， 从 0 到 1 








输入 层 隐藏 层 输出 层 
图 8-8 有 一 个 隐藏 层 的 反馈 神经 网 络 


【程序 8-3】 
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这 个 是 一 个 最 简单 的 一 元 回归 分 析 函 数 ， 现 在 对 这 个 程序 做 一 个 分 析 。 
首先 最 上 端 导 入 了 在 程序 设计 时 所 需要 的 包 : 





这 是 告诉 程序 需要 使 用 TensorFlow 与 NumPy， 将 其 应 用 包 导 入 进来 。 





使 用 NumPy 中 的 随机 生成 数据 功能 生成 一 个 y= 4x + 1 的 线性 曲线 ， 数 据 inputX、noise 
为 随机 生成 的 输入 数 与 满足 偏差 为 0.05 的 正 态 分 布 的 噪音 数 。 
下 面 创建 了 有 一 个 隐藏 层 的 反馈 神经 网 络 去 计算 这 个 线性 曲线 : 





这 里 weightl 与 bias1 分 别 是 神经 网 络 隐藏 层 的 变量 ， 因 为 这 个 变量 在 后 续 的 图 计算 过 程 
是 需要 重新 根据 误差 算法 不 停 地 重新 赋值 ， 押 以 被 设置 成 攻 变 量 。 

程序 段 中 xl 与 yl_ 在 写作 时 就 有 些 不 同 , 这 里 xl 是 占 位 符 , 占 位 符 的 作用 是 在 女 图 计算 
时 不 停 地 输入 数据 ;而 yl_ 是 神经 网 络 设立 的 模型 目标 ， 其 形式 为 : 


i 
即 这 个 模型 是 一 个 一 元 线性 回归 模型 。 





程序 中 ， 这 里 训练 模型 的 真实 值 y 同样 被 设置 成 一 个 占 位 符 。loss 定义 的 是 损失 函数 ， 这 
里 采用 的 是 最 小 二 乘法 的 损失 函数 ， 即 计算 模型 输出 值 与 真实 值 之 间 的 误差 的 最 小 二 乘法 。 
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第 8 章 Hello TensorFlow， 从 0 到 1 








必 寺 最 小 二 乘法 在 后 续 的 章节 中 会 进行 介绍 ， 这 里 读者 只 需 了 解 即 可 。 | 








train 是 采用 梯度 下 降 算法 计算 的 训练 方法 ， 图 8-9 使 用 流程 图 展示 了 这 一 步骤 。 





十 1 本 J 厂 JCG 以 丰 上 了 1 
图 8-9 神经 网 络 的 反 向 传播 算法 
init = tf.initialize all variables() 


sess = tf.Session() 
sess.run(init) 


当 全 部 数据 和 模型 被 设置 完毕 以 后 ，tf.initialize_all_variables() 启 动 数 值 的 初始 化 工作 ， 之 
后 对 话 被 启动 ， 框 架 准备 开始 执行 任务 。 
for i in range(1000) : 
sess.run(train, feed dict={xl1: inputX, y: outputY}) 
在 设 定 的 循环 次 数 下 会 话 被 启动 ， 而 feed 会 把 设 定 的 值 依 次 传送 到 训练 模型 中 。 


Print (weightl1.eval (sess)) 


print("--------------------- ") 
Print (biasl.eval (sess)) 
print("--------------------- ") 


训练 完成 后 ， 可 以 把 结果 进行 打印 ， 在 整个 公式 中 ， 最 需要 知道 的 就 是 weight 和 bias 的 
值 ， 可 以 直接 被 打印 出 来 。 

x_data = np.matrix([[1.], [2.],[3.]]) 

print(sess.runl(yl ,feed dict={xl1: x data})) 

而 模型 训练 结束 后 被 存储 在 上 文 设 定 的 yl_ 模 型 中 。 需 要 注意 的 是 ， 当 训练 结束 后 ， 模 型 
就 已 经 被 训练 完毕 被 存储 在 系统 中 ， 因 此 当 需 要 时 只 需要 按 要 求 调用 即 可 。 








其 实 可 以 简单 地 理解 ，TensorFlow 实际 上 就 是 一 个 函数 解释 器 ， 能 够 把 计算 好 的 关于 神 
L 经 网 络 的 神经 程序 以 程序 设 定 步骤 的 形式 解释 出 来 
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而 如 果 需 要 加 大 更 多 的 隐藏 层 ， 例 如 在 前 面 TensorFlow 游乐 场 中 看 到 的 一 样 ， 则 值 需 要 
编写 更 多 的 步骤 ， 即 : 


第 二 层 的 设置 与 第 一 层 相 似 , 但 是 需要 注意 的 是 , 第 二 层 将 第 一 层 计 算 后 的 输出 值 作为 输 
入 值 进 行 输入 ， 并 重新 计算 。 完 整 代 码 如 程序 8-4 所 示 。 


【程序 8-4】 





第 8 章 Hello TensorFlow， 从 0 到 1 





与 程序 8-3 相 类 似 ， 不 过 在 最 终 的 模型 验证 和 数据 输入 的 时 候 ， 产 生 了 一 个 计算 流程 图 ， 
由 于 一 个 模型 被 人 为 设置 成 2 个， 而 最 终 的 结果 也 由 yl_ 改 成 y2_。 
具体 结果 请 读者 自行 完成 。 


加 .5 本 章 小 结 


在 本 章 中 ， 笔 者 初步 介绍 了 TensorFlow 的 基本 概念 以 及 矩阵 计算 方式 ， 也 介绍 了 在 
TensorFlow 程序 编写 时 需要 设置 的 常量 、 变 量 以 及 占 位 符 ; 然后 着 重 介绍 了 在 TensorFlow 中 
最 常用 的 矩阵 计算 ， 这 是 TensorFlow 图 计算 最 常用 的 数据 处 理 类 型 和 计算 格式 。 

可 能 有 读者 认为 ，TensorFlow 编写 程序 相对 简单 。 但 是 ， 这 个 简单 是 基于 使 用 者 对 所 设 
计 的 算法 和 步骤 深刻 理解 的 基础 上 的 。 前 文 也 说 了 ，TensorFlow 实际 上 就 是 一 个 函数 解释 器 ， 
可 以 把 设计 的 算法 和 函数 用 最 简单 的 方法 实现 ,从 而 能 达到 神经 网 络 做 计算 的 要 求 。 如 果 对 它 
背后 的 公式 和 内 容 不 理解 的 话 ， 那 么 很 难 想象 能 够 编写 出 好 的 程序 。 

从 下 一 章 开 始 ， 笔 者 将 从 最 基本 的 BP 算法 开始 ， 逐 步 讲 解 TensorFlow 公式 和 算法 所 涉 
及 的 内 容 ， 希 望 能 够 加 深 对 TensorFlow 背后 更 深 内 容 的 理解 。 
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8 9 音 


第 9 章 
4TensorFlow 重 要 算 ji 去 基础 * 


本 章 内 容 是 全 书 的 重点 之 一 ， 也 是 神经 网 络 的 最 重要 的 内 容 。 

在 上 一 章 中 ， 笔 者 介绍 了 TensorFlow 的 基本 语法 结构 和 写法 ， 并 通过 一 个 简单 的 入 门 例 
子 向 读者 演示 了 TensorFlow 的 入 门 程 序 : Hello TensorFlow! 

虽然 从 代码 来 看 ， 通 过 TensorFlow 构建 一 个 可 用 的 神经 网 络 程序 对 回归 进行 拟 合 分 析 并 
不 是 一 件 很 难 的 事 , 但 是 , 笔者 在 上 一 章 的 最 后 也 说 了 ， 从 代码 量 上 来 看 ,构建 一 个 普通 的 神 
经 网 络 是 比较 简单 ， 但 是 其 背后 的 原理 却 不 容 小 凯 。 

从 本 章 开 始 ， 笔 者 将 从 BP 神经 网 络 开始 说 起 ， 介 绍 它 的 概念 、 原 理 以 及 它 背后 的 数学 原 
理 。 可 能 本 章 的 后 半 部 分 阅读 起 来 有 一 定 的 困难 ， 读 者 需要 尽力 弄 懂 这 些 内 容 。 











BP 神经 网 络 简介 


在 介绍 BP 神经 网 络 之 前 , 人 工 神 经 网 络 是 必需 介绍 的 内 容 。 人 工 神经 网 络 (Cartificial neural 
network，ANN ) 的 发 展 经 历 了 大 约 半 个 世纪 ， 从 20 世纪 40 年 代 初 到 80 年 代 ， 神 经 网 络 的 研 
究 经 历 了 低潮 和 高 潮 几 起 几 落 的 发 展 过 程 。 

1943 年 ， 心 理学 家 W。McCulloch 和 数理 逻辑 学 家 W。Pitts 在 分 析 、 总 结 神经 元 基本 特 
性 的 基础 上 提出 神经 元 的 数学 模型 (McCulloch-Pitts 模型 ， 简 称 MP 模型 ) ， 标 志 着 神经 网 络 
研究 的 开始 。 但 由 于 受到 当时 研究 条 件 的 限制 ， 很 多 工作 不 能 模拟 ， 在 一 定 程度 上 影响 了 MP 
模型 的 发 展 。 尽 管 如 此 ，MP 模型 对 后 来 的 各 种 神经 元 模型 及 网 络 模型 都 有 很 大 的 启发 作用 ， 
在 此 后 的 1949 年 ，D.O.Hebb 从 心理 学 的 角度 提出 了 至 今 仍 对 神经 网 络 理论 有 着 重要 影响 的 
Hebb 法 则 。 

1945 年 ， 冯 。 诺 依 曼 领导 的 设计 小 组 试制 成 功 存 储 程序 式 电 子 计 算 机 ， 标 志 着 电子 计算 
机 时 代 的 开始 。1948 年 ， 他 在 研究 工作 中 比较 了 人 脑 结构 与 存储 程序 式 计 算 机 的 根本 区 别 ， 
提出 了 以 简单 神经 元 构成 的 再 生 自 动机 网 络 结构 。 但 是 , 由 于 指令 存储 式 计算 机 技术 的 发 展 非 
常 迅 速 ,迫使 他 放弃 了 神经 网 络 研究 的 新 途径 , 继续 投身 于 指令 存储 式 计算 机 技术 的 研究 ， 并 
在 此 领域 做 出 了 巨大 页 献 。 虽然 , 冯 。 诺 依 曼 的 名 字 是 与 普通 计算 机 联系 在 一 起 的 , 但 他 也 是 
人 工 神经 网 络 研究 的 先驱 之 一 
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1958 年 ，F。Rosenblatt 设计 制作 了 “感知 机 ”， 它 是 一 种 多 层 的 神经 网 络 。 这 项 工作 首 
次 把 人 工 神经 网 络 的 研究 从 理论 探讨 付 诸 工程 实践 。 感 知 机 由 简单 的 阔 值 性 神经 元 组 成 , 初步 
具备 了 诸如 学 习 、 并 行 处 理 、 分 布 存 储 等 神经 网 络 的 一 些 基本 特征 ， 从 而 确立 了 从 系统 角度 进 
行人 工 神经 网 络 研究 的 基础 。 

1980 年 ，B.Widrow 和 M.Ho 任 提出 了 自 适 应 线性 元 件 网 络 (ADAptive LINear NEuron， 
ADALINE) ， 这 是 一 种 连续 取 值 的 线性 加 权 求 和 阔 值 网 络 。 后 来 ， 在 此 基础 上 发 展 了 非 线性 
多 层 自 适应 网 络 。Widrow-Hoff 的 技术 被 称 为 最 小 均 方 误差 (least mean square，LMS ) 学 习 规 
则 。 从 此 神经 网 络 的 发 展 进 入 了 第 一 个 高 潮 期 。 

的 确 ,在 一 个 有 限 范 围 内 ,感知 机 有 较 好 的 功能 ， 并 且 收 敛 定理 得 到 证 明 。 单 层 感 知 机 能 
够 通过 学 习 把 线性 可 分 的 模式 分 开 , 但 对 像 XOR( 异 或 ) 这 样 简单 的 非 线 性 问题 却 无 法 求解 ， 
这 一 点 让 人 们 大 失 所 望 ， 甚 至 开始 怀疑 神经 网 络 的 价值 和 潜力 。1999 年 ， 麻 省 理工 学 院 著名 
的 人 工 智能 专家 M.Minsky 和 S.Papert， 出 版 了 颇 有 影响 力 的 Perceptron 一 书 ， 从 数学 上 剖析 
了 简单 神经 网 络 的 功能 和 局 限 性 ， 并 且 指出 多 层 感 知 器 还 不 能 找到 有 效 的 计算 方法 ， 由 于 
M.Minsky 在 学 术 界 的 地 位 和 影响 ， 其 悲观 的 结论 被 大 多 数 人 不 做 进一步 分 析 而 接受 ; 加 之 当 
时 以 逻辑 推理 为 研究 基础 的 人 工 智能 和 数字 计算 机 的 辉煌 成 就 ,大 大 减低 了 人 们 对 神经 网 络 研 
究 的 热情 。20 世纪 60 年 代 末 期 ， 人 工 神经 网 络 的 研究 进入 了 低潮 。 尽 管 如 此 ， 神 经 网 络 的 研 
究 并 未 完全 停顿 下 来 , 仍 有 不 少 学 者 在 极其 艰难 的 条 件 下 致力 于 这 一 研究 。1972 年 T.Kohonen 
和 J.Anderson 不 约 而 同 地 提出 具有 联想 记忆 功能 的 新 神经 网 络 ;， 1976 年 ，S.Grossberg 与 
G.A.Carpenter 提出 了 自 适应 共振 理论 (adaptive resonance theory，ART) ， 并 在 以 后 的 若干 年 
内 发 展 了 ARTI、ART2、ART3 这 3 个 神经 网 络 模型 ， 从 而 为 神经 网 络 研 究 的 发 展 竟 定 了 理论 
基础 。 

进入 20 世纪 80 年 代 ， 特 别 是 80 年 代 末 期 ， 对 神经 网 络 的 研究 从 复兴 很 快 转 入 了 新 的 热 
潮 。 这 主要 是 因为 : 一 方面 经 过 十 几 年 迅速 发 展 的、 以 逻辑 符号 处 理 为 主 的 人 工 智 能 理论 和 汉 “。 诺 
依 曼 计算 机 在 处 理 诸 如 视觉 、 听 觉 、 形 象 思维 、 联 想 记 忆 等 智能 信息 处 理 问题 上 受到 了 挫折 ; 
另 一 方面 ， 并 行 分 布 处 理 的 神经 网 络 本 身 的 研究 成 果 ， 使 人 们 看 到 了 新 的 希望 。1982 年 美国 
加 州 工学 院 的 物理 学 家 J.Hoppfield 提出 了 HNN (hoppfield neural network) 模型 ， 并 首次 引入 
了 网 络 能 量 函 数 概念 , 使 网 络 稳 定性 研究 有 了 明确 的 判 据 , 其 电子 电路 实现 为 神经 计算 机 的 研 
究竟 定 了 基础 , 同时 开拓 了 神经 网 络 用 于 联想 记忆 和 优化 计算 的 新 途径 。1983 年 K.Fukushima 
等 提出 了 神经 认 知 机 网 络 理论 ，1985 年 D.H.Ackley、G.E.Hinton 和 T.J.Sejnowski 将 模拟 退火 
概念 移植 到 Boltzmann 机 模型 的 学 习 之 中 ， 以 保证 网 络 能 收敛 到 全 局 最 小 值 。1989 年 ， 
D.Rumelhart 和 J.McCelland 等 提出 了 PDP (parallel distributed processing ) 理论 则 致力 于 认 知 
微观 结构 的 探索 ， 同 时 发 展 了 多 层 网 络 的 BP 算法 ， 使 BP 网 络 成 为 目前 应 用 最 广 的 网 络 。 

“ 反 向 传播 (backpropagation) ”一 词 的 使 用 出 现在 1985 年 后 ， 它 的 广泛 使 用 是 在 1989 
年 D.Rumelhart 和 JMcCelland 所 著 的 Parallel Distributed Processing 这 本 书 出 版 以 后 .1987 年 ， 
T.Kohonen 提出 了 自 组 织 映 射 (self organizing map，SOM) 。1987 年 ， 美 国电 气 和 电子 工程 
师 学 会 IEEE (institute for electrical and electronic engineers) 在 圣地 亚 哥 (San Diego) 召开 了 
盛大 规模 的 神经 网 络 国际 学 术 会 议 ， 国 际 神经 网 络 学 会 (international neural networks society) 
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也 随 之 诞生 。 

1988 年 ， 学 会 的 正式 杂志 Neural Networks 创刊 ， 从 1988 年 开始 ， 国 际 神经 网 络 学 会 和 
IEEE 每 年 联合 召开 一 次 国际 学 术 年 会 ，1990 年 IEEE 神经 网 络 会 刊 问 世 ， 各 种 期 刊 的 神经 网 
络 特刊 层出不穷 ， 神 经 网 络 的 理论 研究 和 实际 应 用 进入 了 一 个 莲 勃 发 展 的 时 期 。 

BP 算法 ( 反 向 传播 算法 ) 的 学 习 过 程 ， 由 信息 的 正 向 传播 和 误差 的 反 向 传播 两 个 过 程 组 
成 。 输 入 层 各 神经 元 负责 接收 来 自 外 界 的 输入 信息 ， 并 传递 给 中 间 层 各 神经 元 ; 中 间 层 是 内 部 
信息 处 理 层 ， 负 责 信息 变换 ， 根 据 信息 变化 能 力 的 需求 ,中间 层 可 以 设计 为 单 隐 层 或 者 多 隐 层 
结构 ; 最 后 一 个 隐 层 传递 到 输出 层 各 神经 元 的 信息 ， 经 进一步 处 理 后 ， 完 成 一 次 学 习 的 正 向 传 
播 处 理 过 程 ， 由 输出 层 向 外 界 输出 信息 处 理 结果 。 当 实际 输出 与 期 望 输出 不 符 时 ， 进 入 误差 的 
反 向 传播 阶段 。 误差 通过 输出 层 , 按 误差 梯度 下 降 的 方式 修正 各 层 权 值 ， 向 隐 层 、 输 入 层 逐 层 
反 传 。 周而复始 的 信息 正 向 传播 和 误差 反 向 传播 过 程 ， 是 各 层 权 值 不 断 调整 的 过 程 ,也 是 神经 
网 络 学 习 训练 的 过 程 , 此 过 程 一 直 进 行 到 网 络 输出 的 误差 减少 到 可 以 接受 的 程度 , 或 者 预先 设 
定 的 学 习 次 数 为 止 。 

目前 神经 网 络 的 研究 方向 和 应 用 很 多 , 反映 了 多 学 科 交叉 技术 领域 的 特点 。 主 要 的 研究 工 
作 集中 在 以 下 几 个 方面 

@ ”生物 原型 研究 。 从 生理 学 、 心 理学 、 解 剖 学 、 脑 科学 、 病 理学 等 生物 科学 方面 研究 神 

经 细胞 、 神 经 网 络 、 神 经 系统 的 生物 原型 结构 及 其 功能 机 理 。 

@ ”建立 理论 模型 。 根 据 生 物 原 型 的 研究 ， 建 立 神经 元 、 神 经 网 络 的 理论 模型 。 其 中 包括 

概念 模型 、 知 识 模型 、 物 理化 学 模型 、 数 学 模型 等 。 

@ ”网 络 模 型 与 算法 研究 。 在 理论 模型 研究 的 基础 上 构建 具体 的 神经 网 络 模 型 以 实现 计 

算 机 模拟 或 准备 制作 硬件 ， 包括 网 络 学 习 算法 的 研究 . 这 方面 的 工作 也 称 为 技术 模型 
研究 。 

@@ 人工 神经 网 络 应 用 系统 。 在 网 络 模型 与 算法 研究 的 基础 上 , 利用 人 工 神经 网 络 组 成 实 

际 的 应 用 系统 ， 例 如 ， 完 成 某 种 信号 处 理 或 模式 识别 的 功能 、 构 作 专 家 系统 、 制 成 机 
器 人 等 。 

纵 观 当代 新 兴 科 学 技术 的 发 展 历史 ， 人 类 在 征服 宇宙 空间 、 基 本 粒子 、 生 命 起 源 等 科学 技 
术 领 域 的 进程 中 历经 了 崎 嵌 不 平 的 道路 。 我 们 也 会 看 到 , 探索 人 脑 功 能 和 神经 网 络 的 研究 将 伴 
随 着 重重 困难 的 克服 而 日 新 月 异 。 





名 .2 Bp 神经 网 络 中 的 两 个 基础 算法 


在 正式 介绍 BP 神经 网 络 之 前 ， 需 要 首先 介绍 两 个 非常 重要 的 算法 ， 即 随机 梯度 下 降 算 法 
和 最 小 二 乘法 。 
最 小 二 乘法 是 统计 分 析 中 最 常用 的 逼近 计算 的 一 种 算法 , 其 交替 计算 结果 使 得 最 终结 果 尽 
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可 能 地 逼近 真实 结果 。 而 随机 梯度 下 降 算法 是 其 充分 利用 了 TensorFlow 框架 的 图 运算 特性 的 
和 迭代 和 高 效 性 , 通过 不 停 地 判断 和 选择 当前 目标 下 最 优 路 径 , 使 得 能 够 在 最 短路 径 下 达到 最 优 
的 结果 ， 从 而 提高 大 数据 的 计算 效率 。 


9.2.1 最 小 二 乘法 (LS 算法 ) 详解 

LS 算法 是 一 种 数学 优化 技术 ， 也 是 一 种 机 器 学 习 常 用 算法 。 它 通过 最 小 化 误差 的 平方 和 
寻找 数据 的 最 佳 函数 匹配 。 利 用 最 小 二 乘法 可 以 简便 地 求 得 未 知 的 数据 ,并 使 得 这 些 求 得 的 数 
据 与 实际 数据 之 间 误 差 的 平方 和 为 最 小 。 最 小 二 乘法 还 可 用 于 曲线 拟 合 , 其 他 一 些 优 化 问题 也 
可 通过 最 小 化 能 量 或 最 大 化 焙 用 最 小 二 乘法 来 表达 。 

由 于 最 小 二 乘法 不 是 本 章 的 重点 内 容 ,笔者 只 通过 一 个 图 示 向 读者 演示 了 LS 算法 的 原理 。 
LS 算法 原理 如 图 9-1 所 示 。 





图 9-1 最 小 二 乘法 原理 
从 图 9-1 可 以 看 到 ,若干 个 点 依次 分 布 在 向 量 空间 中 ， 如 果 希 望 找 出 一 条 直线 和 这 些 点 达 
到 最 佳 匹 配 , 那么 最 简单 的 一 个 方法 就 是 希望 这 些 点 到 直线 的 值 最 小 , 即 下 面 最 小 二 乘法 实现 
公式 最 小 。 
f(x)=ax+b 


6= Df)-y) 
这 里 直接 应 用 的 是 真实 值 与 计算 值 之 间 的 差 的 平方 和 , 具体 而 言 , 这 种 差 值 有 个 专门 的 名 
称 为 “ 残 差 ”。 基 于 此 ， 表 达 残 差 的 方式 有 以 下 三 种 : 


@。 范 数 : 残 差 绝 对 值 的 最 大 值 吕 aX,l"i|， 即 所 有 数据 点 中 残 差距 离 的 最 大 值 。 

@ Ll1- 范 数 : 绝对 残 差 和 了 代 117i|， 即 所 有 数据 点 残 差距 离 之 和 . 

@。 12- 范 数 : 残 差 平 方 和 ”77 

也 可 以 看 到 ， 所 谓 的 最 小 二 乘法 也 就 是 L2 范 数 的 一 个 具体 应 用 。 通 俗 地 说 ， 就 是 看 模型 
计算 的 结果 与 真实 值 之 间 的 相似 性 。 

因此 ， 最 小 二 乘法 的 定义 可 由 如 下 公式 定义 : 

对 于 给 定 的 数据 (xi, yi)(i = 1 .…,m) ,在 确定 的 假设 空间 瓦 中 ,求解 /ao E 吾 ， 使 得 残 差 
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6= > (JCa)-yi) ”的 2- 范 数 最 小 。 
看 到 这 里 可 能 有 读者 又 会 提出 疑问 ， 这 里 的 ftx) 又 该 如 何 表示 ? 实际 上 函数 ft) 是 一 条 多 
项 式 曲线 : 


fsW) = wo+ WoxX+ WoX2 二 Wo 十 .二 WO 


那么 继续 讨论 下 去 ， 所 谓 的 最 小 二 乘法 就 是 找到 这 人 么 一 组 权重 w， 使 得 
6= UG)-yY 最 小 。 那 么 问题 就 又 来 了 ， 如 何 能 使 得 最 小 二 乘法 最 小 。 
而 对 于 求 出 最 小 二 乘法 的 结果 ， 通 过 数学 上 的 微 积分 处 理 方法 ， 这 是 一 个 求 极 值 的 问题 ， 
这 里 只 需要 对 权 值 依次 求 偏 导数 ， 最 后 令 偏 导数 为 0， 即 可 求 出 极 值 点 。 
1 _ 人 > 一 y)=0 
i Zot WiXi— yi) 
of 


和 25 (wo+ WiXi—yi)X;=0 
Ow > Uhl os tt 


of 
Ow 





= 2 (wot WXi—yi)Xi=0 
n 1 
具体 实现 最 小 二 乘法 的 代码 如 程序 9-1: 
【程序 9-1】 
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最 终结 果 如 图 9-2 所 示 。 











图 9-2 ”最 小 二 乘法 拟 合 曲线 


9.2.2 ”道士 下 山 的 故事 一 一 梯度 下 降 算 法 
在 介绍 随机 梯度 下 降 算 法 之 前 ， 给 大 家 讲 一 个 道士 下 山 的 故事 。 请 读者 看 图 9-3。 


113 


TensorFlow 深度 学 习 应 用 实践 





J(6u6)。 





9-3 ”模拟 随机 梯度 下 降 算法 的 演示 图 


这 是 一 个 模拟 随机 梯度 下 降 算 法 的 演示 图 。 为 了 便于 理解 , 笔者 将 其 比喻 成 道士 想 要 出 去 
游玩 的 一 座 山 。 

设想 道 圭一 天 和 道 友 一 起 到 一 座 不 太 熟 悉 的 山上 去 玩 ， 在 兴趣 盘 然 中 很 快 地 登 上 了 山 
顶 。 但 是 天 有 不 测 ， 下 起 了 雨 。 如 果 这 时 需要 道 土 和 其 同 来 的 道 友 以 最 快 的 速度 下 山 ， 那 么 怎 
么 办 呢 ? 

如 果 想 最 快 的 速度 下 山 , 那么 最 好 的 办 法 就 是 顺 着 坡度 最 陡峭 的 地 方 走 下 去 。 但 是 由 于 不 
熟悉 路 ， 道 士 在 下 山 的 过 程 中 ， 每 走 过 一 段 路程 则 需要 停 下 来 观望 从 而 选择 最 陡峭 的 下 山路 。 
这 样 一 路 走 下 来 的 话 ， 可 以 在 最 短 时 间 内 走 到 底 。 

从 图 上 可 以 近似 的 表示 为 : 

OO=®-@“@-©~O0© 

每 个 数字 代表 每 次 停顿 的 地 点 ， 这 样 只 需要 在 每 个 停顿 的 地 点 选择 最 陡峭 的 下 山路 即 可 。 

这 就 是 一 个 道士 下 山 的 故事 。 随 机 梯度 下 降 算法 和 这 个 类 似 , 如 果 想 要 使 用 最 迅捷 的 方法 ， 
那么 最 简单 的 办 法 就 是 在 下 降 一 个 梯度 的 阶层 后 , 寻找 一 个 当前 获得 的 最 大 坡度 继续 下 降 。 这 
就 是 随机 梯度 算法 的 原理 。 

从 上 面 的 例子 可 以 看 到 ,随机 梯度 下 降 算法 就 是 不 停 地 寻找 某 个 节点 中 下 降幅 度 最 大 的 那 
个 趋势 进行 欠 代 计算 , 直到 将 数据 收缩 到 符合 要 求 的 范围 为 止 。 通 过 数学 公式 表达 的 方式 计算 
的 话 ， 公 式 如 下 : 

f(0)=0 XotO Xt...+0, x, =20 Xi 

在 讲 上 一 节 最 小 二 乘法 的 时 候 ， 笔 者 通过 最 小 二 乘法 说 明了 直接 求解 最 优化 变量 的 方法 。 
也 介绍 了 在 求解 过 程 中 的 前 提 条 件 是 要 求 计算 值 与 实际 值 的 偏差 的 平方 最 小 。 

但 是 在 随机 梯度 下 降 算 法 中 ， 对 于 系数 需要 通过 不 停 地 求解 出 当前 位 置 下 最 优化 的 数据 。 
这 通过 数学 方式 表达 的 话 就 是 不 停 地 对 系数 0 求 偏 导数 。 即 公式 如 下 所 示 : 


号 7 )- 号 ZUVO- =(CA(O) 一 ?7 


公式 中 6 的 会 向 着 梯度 下 降 的 最 快 方向 减少 ， 从 而 推断 出 9 的 最 优 解 。 
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因此 可 以 说 随机 梯度 下 降 算法 最 终 被 归结 为 通过 先 代 计算 特征 值 从 而 求 出 最 合适 的 值 。2 
求解 的 公式 如 下 : 
0=0-a(f (0)-y)x; 
公式 中 a 是 下 降 系数 。 用 较为 通俗 的 话 表示 就 是 用 以 计算 每 次 下 降 的 幅度 大 小 。 系 数 越 
大 则 每 次 计算 中 差 值 较 大 ， 而 系数 越 小 则 差 值 越 小 ， 但 是 计算 时 间 也 相对 延长 。 
随机 梯度 下 降 算法 将 梯度 下 降 算 法 通过 一 个 模型 来 表示 的 话 ， 可 以 如 图 9-4 所 示 这 样 。 





图 94 随机 梯度 下 降 算 法 过 程 


从 图 中 可 以 看 到 , 实现 随机 梯度 下 降 算法 的 关键 是 拟 合算 法 的 实现 。 而 本 例 的 拟 合算 法 实 
现 较 为 简单 ， 通 过 不 停 地 修正 数据 值 从 而 达到 数据 的 最 优 值 。 

随机 梯度 下 降 算法 在 神经 网 络 特别 是 机 器 学 习 中 应 用 较 广 , 但 是 由 于 其 天 生 的 缺陷 , 噪音 
较 多 ,使 得 在 计算 过 程 中 并 不 是 都 向 着 整体 最 优 解 的 方向 优化 ,往往 可 能 只 是 一 个 局 部 最 优 解 。 
因此 为 了 克服 这 些 困难 , 一 个 最 好 的 办 法 就 是 增 大 数据 量 , 在 不 停 地 使 用 数据 进行 欠 代 处 理 的 
时 候 ， 能 够 确保 整体 的 方向 是 全 局 最 优 解 ， 或 者 最 优 结果 在 全 局 最 优 解 附 近 。 


【程序 9-2】 
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最 终结 果 打 印 如 下 : 


theta0 : 0.100684, thetal : 1.564907，theta2 : 1.920652，errorl : 0.569459 
Done: theta0 : 0.100684, thetal : 1.564907, theta2 : 1.920652 
和 迭代 次 数 : 2118 


从 结果 上 看 ， 这 里 需要 迭代 2118 次 即 可 获得 最 优 解 。 


9., 3 TensorFlow 实战 一 一 房屋 价格 的 计算 


题 ， 


在 介绍 完 基本 理论 之 后 ， 下 面 笔者 将 带领 读者 使 用 TensorFlow 解决 实际 生活 中 的 一 个 问 
即 房屋 价格 和 面积 之 间 的 关系 。 这 是 一 个 简单 的 模型 ， 目 前 也 仅仅 考虑 了 房屋 面积 的 大 小 


和 价格 的 直接 关系 。 虽然 这 在 现实 中 是 过 于 简单 的 计算 方法 , 但 是 在 本 例 中 可 以 综合 运用 到 上 
文学 习 到 的 2 个 理论 方法 ， 希 望 本 例 能 够 加 深 读 者 对 其 中 算法 的 理解 。 


除 此 之 外 ， 笔 者 将 借 此 向 读者 介绍 通过 TensorFlow 创建 一 个 完整 程序 的 例子 。 在 之 前 的 


代码 练习 中 ， 基 本 上 都 是 以 Python 为 主 ， 这 里 将 据 此 完整 分 析 本 例 ， 从 数据 的 分 析 到 模型 的 
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训练 和 结果 的 输出 。 


9.3.1 数据 收集 


首先 从 收集 到 的 一 组 数据 开始 ,图 9-5 展示 了 某 城市 房屋 的 价格 与 面积 之 间 的 关系 ,每 个 
数据 点 代表 一 个 例子 ， 即 输出 值 〈 房 屋 价格 ) 与 输入 值 〈 房 屋面 积 ) 之 间 的 关系 。 





> 价格 





7 6 30 100 110 
图 9-5 房屋 的 价格 与 面积 之 间 的 关系 


这 是 基于 已 有 数据 的 统计 展示 ， 也 是 对 已 经 有 价格 的 房屋 面积 的 呈现 的 一 一 对 应 的 关系 ， 
虽然 从 图 中 可 以 看 出 , 大 多 数 的 数据 都 可 以 有 对 应 的 关系 , 但 是 有 某 些 位 置 价格 还 未 确定 的 数 
据点 ， 即 待定 样本 点 ， 就 无 法 较为 准确 地 判定 其 输出 值 。 


9.3.2 ”模型 的 建立 与 计算 


现在 可 以 看 到 ， 本 例子 需要 建立 一 个 可 用 的 模型 ， 即 输入 数据 点 的 输入 值 ， 即 可 准确 地 得 
出 预测 输出 值 。 

首先 是 对 于 模型 的 选择 , 需要 一 个 能 够 拟 合 收集 到 数据 的 最 佳 模型 ,这 个 模型 既 可 以 是 线 
性 模型 ， 也 可 以 是 指数 模型 。 

随 着 图 9-6 给 出 的 不 同 模拟 拟 合 函数 ， 似 乎 从 图 上 可 以 看 到 , 这 些 拟 合 函数 都 可 以 反映 出 


房屋 价格 和 面积 之 间 的 关系 。 
se 9 
. . 
ej。 . 
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为 了 比较 和 分 辨 出 哪个 模型 能 够 更 好 地 反映 出 现实 的 价格 和 面积 的 关系 ,因此 需要 一 个 判 
定 拟 合 模型 最 符合 最 佳 关系 的 函数 。 这 个 函数 被 称 为 “损失 函数 ”或 者 “成 本 函数 ”。 成 本 函 
数 代表 的 是 每 个 模型 上 的 每 个 数据 点 与 实际 输出 值 之 间 偏 差 的 绝对 值 ,因为 有 的 时 候 差 值 是 负 
数 ， 所 以 会 以 差 值 的 平方 代替 。 即 : 


5=Z2(1Co)-yD 
这 也 是 最 小 二 乘法 的 公式 。 








一 真实 情况 下 ， 除 了 最 小 二 乘法 ， 还 有 其 他 的 损失 函数 ， 等 后 文 需要 的 时 候 再 说 。 








当然 了 , 无 论 选择 线性 模型 和 曲线 模型 ， 都 可 以 拟 合 出 模型 ,但 是 本 例 中 将 通过 线性 模型 

来 对 数据 进行 建 模 。 线 性 模型 的 表达 式 为 : 
y=wxx+b= f(x,w) 

WwW: 系数 权重 ; 
总 房屋 面积 ; 
b: 偏 置 系数 ; 
Jy 输出 价格 。 

从 公式 上 看 , 这 里 所 需要 计算 的 主要 是 两 个 参数 ， 即 系数 权重 与 偏 置 系 数 。 因 此 模型 曲线 
的 建立 转化 为 求 w 和 4 的 值 上 。 

如 果 用 传统 的 方法 去 求 取 系数 值 ， 在 本 例 中 虽然 也 可 以 较为 简单 地 求 得 w 和 4b 的 值 ， 但 
是 随 着 系数 的 增加 ， 其 求解 难度 会 呈现 指数 级 的 增加 ， 这 在 计算 过 程 中 往往 就 会 成 为 “计算 焉 
梦 ”， 使 得 最 终 无 法 求解 最 终 的 结果 。 

梯度 下 降 算 法 是 能 够 逐步 计算 出 最 优 解 的 方法 (图 9-7) ， 其 牺牲 了 在 系数 低 状态 时 的 便 
捷 性 ， 换 得 了 对 所 求 系数 多 的 时 候 能 够 计算 下 去 的 方法 。 














图 9-7 梯度 下 降 算法 对 系数 的 更 新 
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梯度 下 降 算法 ed 计算 在 9.2.2 节 中 已 经 有 演示 ， 这 里 就 不 做 介绍 。 


9.3.3 TensorFlow 程序 设计 


现在 可 以 看 到 ， 本 例子 需要 建立 一 个 可 用 的 模型 ， 即 输入 数据 点 的 输入 值 ， 可 准确 地 得 出 
预测 输出 值 。 


步骤 一 
首先 是 程序 所 需要 使 用 的 包 的 导入 : 


其 中 TensorFlow 是 计算 时 使 用 的 ， 而 NumPy 是 常用 的 数据 处 理 函 数 库 。 
其 次 是 获取 房价 和 房屋 面积 的 数据 , 本 例 中 数据 采用 随机 生成 的 形式 , 可 以 由 如 下 函数 生 
成 : 


这 里 由 NumPy 中 的 随机 函数 随机 生成 100 个 范围 在 46 到 99 的 整 型 数 ， 之 后 计算 房屋 的 
价格 ， 这 里 把 房屋 的 面积 乘 以 1.7 作为 房屋 的 价格 。 

下 面 是 关于 TensorFlow 程序 模型 的 建立 ， 首 先 第 一 步 就 是 TensorFlow 的 2 个 基本 组 件 : 
占 位 符 与 变量 。 

前 面 已 经 说 过 ， 占 位 符 的 作用 是 把 数据 像 子 弹 一 样 源源 不 断 地 填 入 到 TensorFlow 的 程序 
中 ， 而 变量 的 作用 是 可 以 即时 地 赋予 新 的 数据 。 


这 里 的 x 和 y 分 别 被 定义 为 一 个 float32 位 的 占 位 符 , 其 作用 是 把 真实 值 导入 到 计算 图 中 。 


步骤 二 

w 和 b 是 在 模型 运行 时 所 用 到 的 系数 ， 被 定义 为 TensorFlow 变量 ， 在 计算 时 需要 不 停 地 
改变 其 中 的 变量 以 便 模型 能 够 更 好 地 拟 合 。 这 里 有 一 点 需要 读者 注意 , 这 里 变量 的 初始 值 被 设 
定 为 0.1， 这 是 数据 格式 的 另 一 种 表示 方式 ， 即 w 和 b 均 为 float32 格式 的 数据 。 

下 面 是 模型 拟 合 曲线 的 建立 : 


y 就 是 定义 了 一 个 计算 公式 ， 即 w 与 x 的 乘积 之 后 与 b 求 和 。 这 也 是 笔者 定义 的 拟 合 公 
式 。 
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之 后 还 有 一 个 非常 重要 的 内 容 就 是 损失 函数 的 确定 , 在 上 文中 , 使 用 了 最 小 二 乘法 作为 模 
型 的 损失 函数 ， 这 里 需要 将 其 转化 成 代码 的 形式 。 


其 中 y 与 y 分 别 为 真实 值 与 拟 合 曲线 计算 出 的 值 ， 其 差 值 的 平方 和 作为 损失 函数 。 而 梯 
度 下 降 是 为 了 在 图 计算 的 过 程 中 寻找 梯度 下 降 最 快 的 那个 方向 ， 即 可 用 于 计算 修正 系数 。 
TensorFlow 中 自 带 了 梯度 下 降 函 数 : 


函数 中 需要 设 定 学 习 率 以 及 所 需要 最 小 化 的 目标 ， 即 要 求 最 小 化 损失 函数 。 
有 了 线性 模型 .损失 函数 以 及 定义 完毕 梯度 下 降 函 数 , 即 可 以 将 数据 进入 模型 的 训练 阶段 。 


步骤 三 
任何 一 个 TensorFlow 构成 的 计算 图 都 要 在 一 个 会 话 中 进行 ， 因 此 需要 创建 一 个 会 话 ， 初 
始 化 变量 ， 之 后 将 图 使 用 会 话 的 run 函数 去 执行 。 


for 循环 设置 了 循环 次 数 ， 这 里 可 以 使 用 固定 的 循环 次 数 ， 也 可 以 设置 损失 函数 的 值 为 计 
算 门槛 。 
整体 的 计算 函数 分 解 如 图 9-8 表示 。 


train_step = tf.train.GradientDescentOptimizer(0.00001).minimize(cost) 
Cost= tf.reduce_mean(tf.pow((y_-y), 2)) 


y_ =ti.placeholder(tf float32, [None, 1]) tment Ma 


x={tf.placeholder(ti.float32, [None, 1]) 
9-8 函数 分 解 图 


而 对 于 整体 步骤 ， 首 先是 将 输入 的 数据 进入 模型 中 , 之 后 构建 数据 模型 ,根据 梯度 下 降 算 
法 更 新 一 次 模型 的 权重 值 ， 之 后 进入 下 一 次 迭代 ， 如 图 9-9 所 示 。 
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Aciual Datapoints 





六 
TF Graph | 
Es “DD 2 
a ‘ay < 一 上 : 
pr 本 

Model:y= Wx+b 

Cost: tf.reduce_mean(ti.square(y_ - y) 
W.b 
Update | Train: Wi adientDescenl ze minimize(cost) 


Vv 
Gradient Descent 
ca | AN 
| Tweak W,, b 


Reduce Cost for (x%, y_) 
图 9-9 和 迭代 的 梯度 下 降 过 程 


下 一 次 迭代 过 程 中 , 重复 以 上 这 个 步骤 , 但 是 使 用 一 个 不 同 的 数据 点 去 计算 。 直 到 达到 预 
定 的 迭代 次 数 或 者 损失 函数 的 差 值 在 阀 值 之 内 ， 从 而 停止 神经 网 络 的 训练 。 








在 大 多 数 情况 下 ,数据 点 越 多 ,模型 的 训练 和 学 习 效 果 越 高 ; 而 当 数 据 量 不 足 时 ， 可 以 通 
过 增 大 迭代 次 数 重复 使 用 已 用 的 数据 点 ， 虽 然 此 时 数据 不 一 样 ， 但 是 在 计算 时 w 和 ob 已 
经 发 生 了 变化 ， 因 此 并 不 影响 权重 更 新 。 


i 








名 A， 反馈 神经 网 络 反 向 传播 算法 


反 向 传播 算法 是 神经 网 络 的 核心 与 精髓 ， 在 其 训练 实践 中 取 拥 有 一 个 举足轻重 的 地 位 。 

用 通俗 话语 解释 的 话 ， 所 谓 的 反 向 传播 算法 就 是 复合 函数 的 链 式 求 导 法 则 的 一 个 强大 应 
用 , 而 且 实际 上 的 应 用 比 起 理论 上 的 推导 强大 得 多 。 本 节 将 主要 介绍 反 向 传播 算法 的 一 个 最 简 
单 模型 的 推导 ， 虽 然 模型 简单 ， 但 是 这 个 简单 的 模型 是 应 用 最 为 广泛 的 基础 。 


9.4.1 深度 学 习 基础 

机 器 学 习 在 理论 上 可 以 看 作 是 统计 学 在 计算 机 科学 上 的 一 个 应 用 。 在 统计 学 上 , 一 个 非常 
重要 的 内 容 就 是 拟 合 和 预测 , 即 基于 以 往 的 数据 , 建立 光滑 的 曲线 模型 实现 数据 结果 与 数据 变 
量 的 对 应 关系 。 

深度 学 习 为 统计 学 的 应 用 ， 同 样 是 为 了 这 个 目的 ， 寻 找 结果 与 影响 因素 的 一 一 对 应 关系 。 
只 不 过 样本 点 由 狭义 的 x 和 ?扩展 到 向 量 、 和 矩阵 等 广义 的 对 应 点 。 而 此 时 ， 由 于 数据 的 复杂 ， 
对 应 关系 模型 的 复杂 度 也 随 之 增加 ， 而 不 能 由 一 个 简单 的 函数 表达 。 

数学 上 通过 建立 复杂 的 高 次 多 元 的 函数 解决 复杂 模型 拟 合 的 问题 , 但 是 大 多 数 都 失败 , 因 
为 过 于 复杂 的 函数 式 是 无 法 进行 求解 ， 也 就 是 其 公式 的 获取 不 可 能 。 
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基于 前 人 的 研究 ， 科 研 工作 人 员 发 现 可 以 通过 神经 网 络 来 表示 这 样 的 一 个 一 一 对 应 的 关 
系 ,而 神经 网 络 本 质 就 是 一 个 多 元 复合 函数 ,通过 增加 神经 网 络 的 层次 和 神经 单元 ， 可 以 更 好 
地 表达 函数 的 复合 关系 ， 如 图 9-10 所 示 。 





Layerl; Layer tl 


图 9-10 多 层 神 经 网 络 的 表示 
这 是 多 层 神 经 网 络 的 一 个 图 像 表达 方式 ， 这 与 我 们 在 前 面 TensorFlow 游乐 场 中 看 到 的 神 
经 网 络 模型 类 似 。 事实 上 也 是 如 此 , 通过 设置 输入 层 、 隐 藏 层 与 输出 层 可 以 形成 一 个 多 元 函数 
求解 相关 问题 。 
如 果 通过 数学 表达 式 将 多 层 神经 网 络 模型 表达 出 来 ， 则 公式 如 图 9-11 所 示 。 
al = (wxxi+ WoxXxz+ WiXXs+ hb) 
=f (WxXXt WoyXXt WXX+h,) 
0 = (waixXi+ WaX Xs+ WasX Xs+ Db,) 
h(x)= f (Wixa + Wroxa,+Wisxas+b) 
图 9-11 多 层 神 经 网 络 的 数学 表达 
其 中 x 是 输入 数值 ， 而 w 是 相 邻 神经 元 之 间 的 权重 ， 也 就 是 神经 网 络 在 训练 过 程 中 需要 
学 习 的 参数 。 而 与 线性 回归 相 类 似 的 是 ， 神 经 网 络 学 习 同 样 需要 一 个 “损失 函数 ”， 即 训练 目 
标 通过 调整 每 个 权重 值 w 来 使 得 损失 函数 最 小 。 前 面 在 讲解 梯度 下 降 算法 的 时 候 已 经 说 过 ， 
如 果 权 重 过 多 或 者 指数 过 大 时 , 直接 求解 系数 是 不 可 能 的 , 因此 梯度 下 降 算 法 是 能 够 求解 权重 
的 比较 好 的 方法 。 


9.4.2 ” 链 式 求 导 法 则 


在 前 面 梯度 下 降 算法 的 介绍 中 , 并 没有 对 其 背后 的 原理 做 出 更 为 详细 的 介绍 。 实际 上 梯度 
下 降 算 法 就 是 链 式 法 则 的 一 个 具体 应 用 ， 如 果 把 前 面 公 式 中 损失 函数 以 向 量 的 形式 表示 为 : 


hoo = wywpywaywa .+ Wy) 


那么 其 梯度 向 量 则 为 : 
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因此 可 以 看 到 , 其 实 所 谓 的 梯度 向 量 就 是 求 出 函数 在 每 个 向 量 上 的 偏 导数 之 和 。 这 也 是 链 
式 法 则 善于 解决 的 方面 。 
下 面 以 e=(at+b)X(b+1)， 其 中 a=2、b= 1 为 例子 ， 计 算 其 偏 导数 。 


e=(atb)X(b+1) 的 示意 图 如 图 9-12 所 示 。 
2 


oS Ww 


图 9-12 e=(a+b)X(b+1) 示 意图 


本 例 中 为 了 求 得 最 终 值 e 对 各 个 点 的 梯度 , 那么 需要 将 各 个 点 与 e 所 联系 在 一 起 , 例如 期 
望 求 得 e 对 输入 点 a 的 梯度 ， 则 只 需要 求 得 : 





这 样 就 把 e 与 a 的 梯度 联系 在 一 起 ， 同 理 可 得 : 
Oe Oe 6c 6e 6d 
x x 


Ob 6c ob 6d 00 
用 图 示 表示 为 图 9-13。 





9-13” 链 式 法 则 的 应 用 
这 样 做 的 好 处 是 显而易见 的 , 求 e 对 a 的 偏 导 数 则 只 要 建立 一 个 e 到 a 的 路 径 , 图 中 经 过 
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c， 那 么 通过 相关 的 求 导 链接 就 可 以 得 到 所 需要 的 值 。 而 对 于 求 e 对 b 的 偏 导数 ， 也 只 需要 建 
立 所 有 e 到 b 路 径 中 的 求 导 路 径 ， 从 而 获得 需要 的 值 。 


9.4.3 ”反馈 神经 网 络 原理 与 公式 推导 


在 求 导 过 程 中 ,可 能 有 读者 已 经 注意 到 , 如 果 拉 长 了 求 导 过 程 或 者 增加 了 其 中 的 单元 , 那 
么 就 会 大 大 增加 其 中 的 计算 过 程 , 即 很 多 偏 导 数 的 求 导 过 程 会 被 反复 地 重复 , 因此 在 实际 上 对 
于 权 值 达到 上 十 万 或 者 上 百 万 的 神经 网 络 来 说 ， 这 样 的 重复 元 余 所 导致 的 计算 量 是 很 大 的 。 

同样 是 为 了 求 得 对 权重 的 更 新 ， 反 馈 神经 网 络 算法 将 训练 误差 E 看 作 以 权重 向 量 中 每 个 
元 素 为 变量 的 高 维 函数 ， 通 过 不 断 更 新 权重 ， 寻 找 训 练 误差 的 最 低 点 ， 按 误差 函数 梯度 下 降 的 
方向 更 新 权 值 。 











一 具体 计算 公式 在 本 节 后 半 部 分 进行 推导 。 | 











首先 求 得 最 后 的 输出 层 与 真实 值 之 间 的 差距 ， 如 图 9-14 所 示 。 





9-14 ”反馈 神经 网 络 最 终 误差 的 计算 


之 后 以 计算 出 的 测量 值 与 真实 值 为 起 点 , 反 向 传播 到 上 一 个 节点 ,并 计算 出 节点 的 误差 值 ， 
如 图 9-15 所 示 。 





9-15 ”反馈 神经 网 络 输出 层 误差 的 传播 


以 后 将 计算 出 的 节点 误差 重新 设置 为 起 点 , 依次 向 后 传播 误差 。 此 时 需要 注意 的 是 , 对 于 
隐藏 层 ， 误差 并 不 是 像 输 出 层 一 样 由 单个 节点 确定 , 而 是 由 多 个 节点 确定 , 因此 对 其 的 计算 要 
求 得 到 所 有 的 误差 值 之 和 ， 如 图 9-16 所 示 。 
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pp 已 = + Ws6s 6 = Wo4 + Ws6s 
四 本- 








图 9-16 反馈 神经 网 络 隐藏 层 误差 的 计算 


通俗 地 解释 , 一 般 情况 下 误差 的 产生 是 由 于 输入 值 与 权重 的 计算 产生 了 错误 , 而 对 于 输入 
值 来 说 , 输入 值 往往 是 固定 不 变 的 ， 因 此 对 于 误差 的 调节 ， 则 需要 对 权重 进行 更 新 。 而 权重 的 
更 新 又 是 以 输入 值 与 真实 值 的 偏差 为 基础 ， 当 最 终 层 的 输出 误差 被 反 向 一 层 层 地 传递 回来 后 ， 
每 个 节点 被 相应 地 分 配 适合 其 在 神经 网 络 地 位 中 所 担负 的 误差 , 即 只 需要 更 新 其 所 需 承 担 的 误 
差 量 ， 如 图 9-17 所 示 。 
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图 9-17 反馈 神经 网 络 权重 的 更 新 


即 在 每 一 层 , 需要 维护 输出 对 当前 层 的 微分 值 , 该 微分 值 相当 于 被 复 用 于 之 前 每 一 层 里 权 
值 的 微分 计算 。 因此 空间 复杂 度 没有 变化 ， 同 时 也 没有 重复 计算 ， 每 一 个 微分 值 都 在 之 后 的 和 
代 中 使 用 。 
下 面 介 绍 一 下 公式 的 推导 。 公式 的 推导 需要 使 用 一 些 高 等 数学 的 知识 , 因此 读者 可 以 自由 
选择 学 习 。 
首先 是 算法 的 分 析 , 前 面 已 经 说 过 , 对 于 反馈 神经 网 络 算法 主要 需要 知道 输出 值 与 真实 什 
之 间 的 差 值 。 
@ 对 输出 层 单 元 ， 误 差 项 是 真实 值 与 模型 计算 值 之 间 的 差 值 。 
@ ”对 于 隐藏 层 单元 , 因为 缺少 直接 的 目标 值 来 计算 隐藏 单元 的 误差 , 因此 需要 以 间接 的 
方式 来 计算 隐藏 层 的 误差 项 对 受 隐 藏 单元 影响 的 每 一 个 单元 的 误差 进行 加 权 求 和 。 
@。 权 值 的 更 新 方面 ， 主 要 依靠 学 习 速 率 、 该 权 值 对 应 的 输入 ， 以 及 单元 的 误差 项 。 
1. 定义 一 : 前 向 传播 算法 
对 于 前 向 传播 的 值 传递 ， 隐 藏 层 输出 值 定义 如 下 : 
所 入 x L 
pr = fan) 
其 中 二 是 当前 节点 的 输入 值 ， 1 是 连接 到 此 节点 的 权重 ， 2 是 输出 值 。 了 是 当前 阶段 
的 激活 函数 ， 总 “ 为 当年 节点 的 输入 值 经 过 计算 后 被 激活 的 值 。 
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二 三 和 交友 


而 对 于 输出 层 ， 定 义 如 下 : 


其 中 友 为 输入 的 权重 ，2 为 输入 到 输出 节点 的 输入 值 。 这 里 对 所 有 输入 值 进行 权重 计 
算 后 求 得 的 值 ， 作 为 神经 网 络 的 最 后 输出 值 a 。 

2. 定义 二 : 反 向 传播 算法 

与 前 向 传播 类 似 ， 需 要 首先 定义 两 个 值 5, 与 57 : 





四 0a, 
-a DLL 
四 8 


其 中 6 为 输出 层 的 误差 项 ， 其 计算 值 为 真实 值 与 模型 计算 值 之 间 的 差 值 。Y 是 计算 值 ，7 
是 输出 真实 值 。62 为 输出 层 的 误差 。 


民 司 对 于 6， 与 6 来 说 ， 无 论 定义 在 哪个 位 置 ， 都 可 以 看 作 当前 的 输出 值 对 于 输入 值 的 梯度 
计算 。 

由 前 面 的 分 析 可 以 看 到 , 所 谓 的 神经 网 络 反馈 算法 ， 就 是 逐 层 将 最 终 误差 进行 分 解 , 即 每 
一 层 只 与 下 一 层 打交道 。 那么 介 于 此 可 以 假设 每 一 层 均 为 输出 层 的 前 一 个 层级 , 通过 计算 前 一 
个 层级 与 输出 层 的 误差 得 到 权重 的 更 新 ， 如 图 9-18 所 示 。 

















9-18 权重 的 逐 层 反 向 传导 


因此 反馈 神经 网 络 计算 公式 定义 为 : 


127 


TensorFlow 深度 学 习 应 用 实践 








_ 0 ob 
6p oa 

L 
= Dr xf’ (ao ) 

h 

or Oa, 
三 一 -一 X 

Oa Ob” 
= 克 人 


= Ph x6 xr’ (0) 





x £’ (ap) 


即 当前 层 输 出 值 对 误差 的 梯度 可 以 通过 下 一 层 的 误差 与 权重 和 输入 值 的 梯度 乘积 获得 。 公 


式 思 x 5 x 了 (a) 中 着 为 输出 层 则 可 以 通过 5 = 字 = (一 也) 来 得 ,而 6 


a 


为 非 输出 层 时 ， 则 可 以 使 用 逐 层 反馈 的 方式 求 得 5, 的 值 。 











i 


总 这 里 读者 千 万 要 注意 ， 对 于 ,与 64 来 说 ， 其 计算 结果 都 是 当前 的 输出 值 对 于 输入 值 的 
| 梯度 计算 ， 是 权重 更 新 过 程 中 一 个 非常 重要 的 数据 计算 内 容 。 











或 者 换 一 种 表述 形式 将 前 公式 表示 为 : 
6 = Dm x wr a) 

可 以 看 到 , 通过 更 为 泛 化 的 公式 , 把 当前 层 的 输出 对 输入 的 梯度 计算 转化 成 求 下 一 个 层级 
的 梯度 计算 值 。 

3. 定义 三 : 权重 的 更 新 

反馈 神经 网 络 计 算 的 目的 是 对 权重 的 更 新 , 因此 与 梯度 下 降 算法 类 似 , 其 更 新 可 以 仿照 梯 
度 下 降 对 权 值 的 更 新 公式 : 

0=0-a(f(0)-—y)x; 
即 


1 
Wi;,=W; +QxoO, XX, 


bi=bn+axo 

其 中 有 太 表 示 为 反 向 传播 时 对 应 的 节点 系数 , 通过 对 6 的 计算 , 就 可 以 更 新 对 应 的 权重 值 。 
WW 的 计算 公式 如 上 所 示 。 

对 于 没有 推导 的 b;， 其 推导 过 程 与 歼 ; 类 似 ， 但 是 在 推倒 过 程 中 输入 值 是 被 消去 的 ， 请 
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读者 自行 学 习 。 


9.4.4 反馈 神经 网 络 原理 的 激活 函数 

现在 回 到 反馈 神经 网 络 的 函数 : 

6' = DW xom xf’ (al) 

对 于 此 公式 中 的 所 和 54 以 及 所 需要 计算 的 目标 87 已 经 做 了 较为 详尽 的 解释 。 但 是 对 
于 f”(a/) 来 说 ， 却 一 直 没有 做 出 介绍 。 
回 到 前 面 生物 神经 元 的 图 示 中 ,传递 进 来 的 电信 号 通过 神经 元 进行 传递 , 由 于 神经 元 的 突 
触 强 弱 是 有 一 定 的 敏感 度 的 , 也 就 是 只 会 对 超过 一 定 范围 的 信号 进行 反馈 。 即 这 个 电信 号 必须 
大 于 某 个 阔 值 ， 神 经 元 才 会 被 激活 引起 后 续 的 传递 。 


在 训练 模型 中 同样 需要 设置 神经 元 的 阔 值 ， 即 神经 元 被 激活 的 频率 用 于 传递 相应 的 信息 ， 
模型 中 这 种 能 够 确定 是 否 当前 神经 元 节点 的 函数 被 称 为 “激活 函数 ”， 如 图 9-19 所 示 。 








zo wo 
axon from a neuron synapse 
Woro 
mpulses camed le 
toward cel body 
branches 
dendrites、 of axon 
nuclous Cl ea 
NN 
NN rpoese ca 
ln 
et away trom call body 





A cartoon drawing of a biological neuron (left) and its mathematical model (right) 


9-19 ”激活 函数 示意 图 


激活 函数 代表 了 生物 神经 元 中 接收 的 信号 强度 ， 目 前 应 用 范围 较 广 的 是 sigmoid 函数 。 
为 其 在 运行 过 程 中 只 接受 一 个 值 输出 ， 也 为 一 个 值 的 信号 ， 且 其 输出 值 为 0 到 1 之 间 。 





其 图 形 如 图 9-20 所 示 。 
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t/t+exp(%)) 一 











图 9-20 ”sigmoid 激活 函数 图 
而 其 导 函 数 求 法 也 较为 简单 ， 即 : 


e™” 


”Ge 

换 一 种 表示 方式 为 : 

PR)” = (2 = 

Sigmoid 输入 一 个 实 值 的 数 ， 之 后 将 其 压缩 到 0~1。 特 别 是 对 于 较 大 值 的 负数 被 映射 成 0， 
而 大 的 正 数 被 映射 成 1。 
顺带 说 一 句 ，Sigmoid 函数 在 神经 网 络 模型 中 占据 了 长 久 的 一 段 统治 地 位 ， 但 是 目前 已 经 
不 常 使 用 ,主要 原因 是 其 非常 容易 区 域 饱和 ， 当 输入 开始 是 非常 大 或 者 非常 小 的 时 候 ， 其 梯度 
区 域 零 , 会 造成 在 传播 过 程 中 产生 接近 于 0 的 梯度 。 这样 在 后 续 的 传播 时 会 造成 梯度 消散 的 现 
象 ， 因 此 并 不 适合 现代 的 神经 网 络 模型 使 用 。 

除 此 之 外 ， 近 年 来 涌现 出 大 量 新 的 激活 函数 模型 ， 例 如 Maxout、Tanh 和 ReLU 模型 ， 这 
些 都 是 为 了 解决 传统 的 sigmoid 模型 在 更 深 程 度 上 的 神经 网 络 所 产生 的 各 种 不 良 影响 。 

















医改 具体 的 使 用 和 影响 会 在 后 面 的 TensorFlow 实战 中 进行 介绍 。 | 





9.4.5 ”反馈 神经 网 络 原理 的 Python 实现 


本 节 将 使 用 Python 语言 对 神经 网 络 的 反馈 算法 做 一 个 实现 。 相 信 笔者 经 过 前 几 节 的 解释 ， 
对 神经 网 络 的 算法 和 描述 有 了 一 定 的 理解 ， 本 节 中 将 使 用 Python 代码 去 实现 一 个 自己 的 反馈 
神经 网 络 。 

为 了 简化 起 见 ， 这 里 的 神经 网 络 被 设置 成 三 层 ， 即 只 有 一 个 输入 层 ， 一 个 隐藏 层 以 及 最 终 
的 输出 层 ， 如 图 9-21 所 示 。 
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图 9-21 一 个 隐 含 层 的 神经 网 络 
首先 是 辅助 函数 的 确定 : 





这 里 首先 定义 了 随机 值 ， 使 用 random 包 中 的 random 函数 生成 了 一 系列 随机 数 ， 之 后 的 
make_matrix 函数 生成 了 相对 应 的 矩阵 。Sigmoid 和 sigmod_derivate 分 别 是 激活 函数 和 激活 函 
数 的 倒 函数 。 这 也 是 前 文 所 定义 的 内 容 。 

然后 进入 BP 神经 网 络 类 的 正式 定义 ， 类 的 定义 需要 对 数据 进行 内 容 的 设 定 。 





TensorFlow 深度 学 习 应 用 实践 ) 


init 函数 是 数据 内 容 的 初始 化 , 即 在 其 中 设置 了 输入 层 , 隐藏 层 已 经 输出 层 中 节点 的 个 数 ; 
各 个 cell 数据 是 各 个 层 中 节点 的 数值 ，weights 数据 代表 各 个 层 的 权重 。 
setup 函数 的 作用 是 对 init 函数 中 设 定 的 数据 进行 初始 化 。 


首先 需要 注意 ， 输 入 层 节点 个 数 被 设置 成 ni+1， 这 是 由 于 其 中 包含 bias 偏 置 数 ， 各 个 节 
点 与 1.0 相 乘 是 初始 化 节点 的 数值 ; 各 个 层 的 权重 值 根据 和 输入、 隐藏 以 及 输出 层 中 节点 的 个 数 
被 初始 化 并 被 赋值 。 

定义 完 各 个 层 的 数目 后 , 下 面 进入 正式 的 神经 网 络 内 容 的 定义 。 首 先是 对 于 神经 网 络 前 向 
的 计算 。 
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代码 段 中 将 数据 输入 到 函数 中 ,通过 隐藏 层 和 输出 层 的 计算 ， 最 终 以 数组 的 形式 输出 。 同 
时 读者 也 注意 到 , 在 进行 前 向 计算 时 各 个 层 被 分 开 编写 ,， 这 样 做 的 好 处 就 是 对 各 个 层 的 计算 有 
不 同 设计 方式 可 以 实现 ， 从 而 能 够 应 对 更 多 问题 。 

反馈 神经 网 络 的 Python 实现 最 终 如 程序 9-3 所 示 。 


【程序 9-3】 
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其 中 的 train 函数 和 test 函数 分 别 是 程序 的 训练 和 测试 函数 ， 训 练 函数 中 依次 将 数据 输入 
到 计算 模型 中 ， 而 测试 数据 被 用 于 对 数据 结果 进行 测试 ， 最 终 打印 结果 如 图 9-22 所 示 。 
[0. 09026010223414448] 
[0. 9088942200464757] 
[0. 8999984121991694] 
[0. 08909449592645467] 
9-22 程序 9-3 计算 结果 


程序 训练 的 结果 与 真实 值 labels = [[0], [1], [1], [0]] 基 本 类 似 ， 因 此 可 以 认为 在 本 例 中 训练 
模型 是 有 效 的 。 


9.5 本章 小 结 


本 章 内 容 是 全 书 的 重点 之 一 ， 也 是 神经 网 络 的 最 重要 的 内 容 。 

反馈 神经 网 络 最 基本 的 2 个 算法 :最 小 二 乘法 以 及 梯度 下 降 方法 ,本 章 都 做 了 详尽 的 解释 。 
这 是 神经 网 络 的 最 基础 最 核心 的 内 容 。 虽 然 随 着 计算 机 硬件 的 提高 和 编程 能 力 的 加 强 ， 以 及 对 
神经 网 络 研究 的 加 深 ， 在 实际 使 用 中 有 更 好 的 算法 代替 ; 但 是 其 基本 理论 和 思路 都 是 类 似 的 ， 
并 没有 太 大 的 变化 ,无 非 也 就 是 细 枝 末节 的 修改 .因此 笔者 建议 读者 对 此 章 的 内 容 要 重点 学 习 。 

对 于 反馈 神经 网 络 , 简单 地 说 就 是 一 个 基于 上 述 两 个 内 容 的 一 个 链 式 法 则 的 具体 应 用 , 虽 
然 相对 于 传统 的 链 式 法 则 , 神经 网 络 的 链 式 法 则 为 了 节省 空间 和 计算 时 间 , 将 每 个 节点 进行 弟 
归 计算 ， 从 而 使 得 神经 网 络 的 反馈 计算 能 够 在 多 隐藏 层 和 多 节点 的 前 提 下 运行 。 

本 章 使 用 Python 语言 实现 了 基础 算法 ， 笔 者 并 不 是 要 求 读 者 去 独立 完成 和 编写 ， 而 是 希 
望 能 对 算法 的 具体 执行 过 程 有 更 进一步 的 了 解 ， 因 为 在 后 面 的 TensorFlow 框架 中 ， 这 些 算法 
都 是 被 完整 封装 而 不 能 够 探究 其 内 容 。 

从 下 一 章 开始 ， 将 进入 使 用 TensorFlow 解决 问题 的 章节 ， 本 书写 作 的 目的 是 使 用 
TensorFlow 做 出 图 像 识别 。 不 用 担心 ， 笔 者 还 会 从 最 简单 的 demo 开始 ， 一 步 步 带领 读者 从 理 
论 到 实践 去 逐步 解决 问题 。 
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对 于 任何 一 个 数据 处 理 的 框架 , 数据 的 生成 与 读 写 都 是 异常 复杂 和 需要 谨慎 处 理 的 , 特别 
是 对 TensorFlow 这 样 专门 用 作 数 据 分 析 的 分 布 式 处 理 框架 ， 更 是 重 中 之 重 。 

TensorFlow 数据 处 理 框 架 的 数据 制作 与 读 写 所 面临 的 最 大 挑战 是 ， 要 覆盖 所 有 数据 的 可 
能 性 因素 , 这 里 不 仅仅 要 考虑 输入 的 数据 格式 、 框架 所 在 的 硬件 、 操作 系统 、 数 据 存储 环境 等 ， 
还 要 处 理 和 应 对 大 量 的 不 同 的 读 取 方式 以 及 庞大 的 数据 吞吐 量 。 

本 章 将 详细 介绍 TensorFlow 在 数据 生成 与 读 取 方面 的 内 容 ， 介 绍 读 取 数 据 的 线程 和 队列 
的 基本 概念 和 原理 ， 之 后 会 介绍 TensorFlow 数据 集 的 制作 ， 以 及 数据 的 输入 输出 原理 和 程序 
设计 。 

本 书 的 目标 偏向 于 图 像 处 理 , 因此 在 程序 的 编写 上 将 以 输入 图 形 文件 为 主 , 相对 于 文本 的 
输入 , 图 像 文件 更 为 复杂 , 相信 读者 学 习 完 本 章 内 容 同 样 会 对 编写 其 他 的 输入 输出 格式 打下 坚 
实 的 基础 。 





TensorFlow 的 队列 


队列 (queue) 是 一 种 最 为 常用 的 数据 输入 输出 方式 ， 其 通过 先进 先 出 的 线性 数据 结构 ， 
- 端 只 负责 增加 队列 中 的 数据 元 素 ， 而 数据 的 输出 和 删除 在 队列 的 另 一 端 实现 。 在 称呼 上 ,能 
够 增加 数据 元 素 的 队列 一 端 被 称 为 队 尾 ， 而 输出 和 删除 数据 元 素 的 一 端 被 称 为 队 首 。 

与 Python 中 所 使 用 的 队列 类 似 ，TensorFlow 同样 应 用 队列 作为 数据 的 一 种 基本 输入 输出 
方式 ， 可 以 将 新 的 数据 插入 到 队列 的 队 尾 ， 而 在 队 首 将 数据 输出 和 删除 。 当 然 在 TensorFlow 
中 可 以 这 样 认为 ， 队 列 在 TensorFlow 是 出 于 一 种 有 状态 节点 的 地 位 ， 随 着 其 他 节点 在 图 中 状 
态 的 改变 ， 队 列 这 个 “节点 ”的 状态 可 以 随 之 改变 ， 





10.1.1 队列 的 创建 


队列 的 使 用 和 Python 中 队列 的 函数 类 似 ， 甚 至 于 其 函数 名 也 是 参考 Python 中 函数 命名 。 
其 函数 如 表 10-1 所 示 。 
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表 10-1 队列 常用 方法 汇总 





操作 描 述 

class tf.QueueBase 基本 的 队列 应 用 类 ， 队 列 (queue) 是 一 种 数据 结构 ， 该 结构 通过 多 个 
步骤 存储 tensors， 并 且 对 tensors 进 行 入 列 (enqueue) 与 出 列 (dequeue) 
操作 

tfenqueue(vals, name=None) 将 一 个 元 素 编 入 该 队列 中 。 如 果 在 执行 该 操作 时 队列 已 满 ， 那 么 将 会 


阻塞 直到 元 素 编 入 队列 之 中 





tfenqueue_many(vals, name=None) | 将 零 个 或 多 个 元 素 编 入 该 队列 中 


将 元 素 从 队列 中 移出 ， 如 果 在 执行 该 操作 时 队列 已 空 ， 那 么 将 会 阻塞 
直到 元 素 出 列 ， 返 回 出 列 的 tensors 的 tuple 


tfdequeue_ many(n, name=None) 将 一 个 或 多 个 元 素 从 队列 中 移出 
tf.size(name=None) 计算 队列 中 的 元 素 个 数 

tf.close 关闭 该 队列 

从 该 队列 中 移出 n 个 元 素 并 将 之 连接 
列 出 组 成 元 素 的 数据 类 型 
根据 queues[index] 的 参考 队列 创建 一 个 队列 












tf.dequeue(name=None) 





f.dequeue_up_to(n, name=None) 





tf.dtypes 





tf.from list(index, queues) 














tf.name 返回 队列 最 下 面 元 素 的 名 称 

tfnames 返回 队列 每 一 个 组 成 部 分 的 名 称 

class tf.FIFOQueue 在 出 列 时 依照 先入 先 出 顺序 

class tf.PaddingFIFOQueue 一 个 FIFOQueue ， 同 时 根据 padding 支 持 batching 变 长 的 tensor 
class tf.RandomShuffleQueue 该 队列 将 随机 元 素 出 列 


- 般 而 言 ， 创 建 一 个 队列 首先 要 选 定数 据 出 入 类 型 ， 例 如 是 使 用 FIFOQueue 函数 设 定数 

据 为 先入 先 出 ， 还 是 RandomShuffleQueue 这 种 随机 元 素 出 列 的 方式 。 

q = tf.FIFOQueue(3,"float") 

函数 的 第 一 个 参数 是 队列 中 数据 的 个 数 ， 第 二 个 参数 是 队列 中 元 素 的 类 型 。 

之 后 要 对 队列 中 元 素 进行 初始 化 和 进行 操作 ， 需 要 特别 注意 的 是 ，TensorFlow 中 任何 操 
作 都 是 在 “会 话 ” 中 进行 ， 因 此 其 基本 的 操作 都 要 由 会 话 〈Session) 完成 。 

sess = tf.Session() 

init = q.enqueue many(([0.1, 0.2, 0.3],)) 

sess.run (init) 

enqueue_many 函数 将 上 文中 创建 的 FIFOQueue 函数 进行 了 填充 ， 因 为 q 被 设置 成 包含 3 
个 元 素 的 函数 ， 因 此 其 一 次 性 被 填充 进 3 个 数据 。 但 是 实际 上 ， 此 时 的 数据 填充 并 没有 完成 ， 
而 是 做 出 了 一 个 预备 工作 ， 真 正 的 工作 要 在 会 话 中 完成 ， 因 此 还 需要 运行 会 话 中 的 run 函数 。 
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【程序 10-1】 





在 程序 10-1 中 ， 首 先 设 定 了 一 个 “先入 先 出 ”的 队列 ， 之 后 被 填充 进入 数据 。dequeue 
函数 将 其 中 的 数据 弹出 。 此 时 为 了 能 够 让 这 个 队列 操作 完成 ， 这 步 操作 被 命名 为 init2， 下 面 
的 init3 同样 是 在 对 话 中 完成 。 之 后 通过 对 话 操作 对 这 3 个 步骤 进行 处 理 。 

size 函数 获取 了 当前 队列 的 数据 个 数 ， 之 后 通过 一 个 for 循环 将 队列 中 的 数据 弹出 。 最 终 
打印 结果 如 下 : 


其 中 可 以 看 到 第 一 次 init 的 3 个 数值 中 0.1 被 dequeue, 取而代之 的 是 enqueue 函数 进去 的 
1 这 个 数值 。 





dequeue 是 一 个 可 以 堵塞 队列 的 函数 ， 如 果 其 中 没有 数据 被 弹出 ， 则 会 堵塞 队列 直到 数据 


被 填充 之 后 被 弹出 。 





从 程序 10-1 可 以 看 到 ， 队 列 的 操作 是 在 主线 程 的 对 话 中 依次 完成 。 这 样 做 的 好 处 不 易 堵 
塞 队列 , 出 了 bug 容易 查找 等 。 例 如 数据 执行 入 队 操作 后 从 硬盘 上 输入 数据 到 内 存 中 供 后 续 使 
用 ， 但 是 这 样 的 操作 会 造成 数据 的 读 取 和 输入 较 慢 ， 处 理 相对 困难 。 

TensorFlow 中 提供 了 QueueRunner 函数 用 以 解决 异步 操作 问题 。 其 可 创建 一 系列 的 线程 
同时 进入 主线 程 内 进行 操作 , 数据 的 读 取 与 操作 是 同步 , 即 主线 程 在 进行 训练 模型 的 工作 的 同 
时 将 数据 从 硬盘 读 入 。 


【程序 10-2】 
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在 程序 10-2 中 首先 创建 了 1 个 数据 处 理 函数 ,add_op 的 操作 是 将 整数 1 闭 加 到 变量 counter 
上 去 。 为 了 执行 这 个 操作 ，qr 创建 了 一 个 队列 管理 器 QueueRunner， 其 调用 了 2 个 线程 去 完成 
此 项 任务 。create_threads 函数 是 对 线程 进行 了 启动 。 此 时 线程 已 经 开始 运行 。 

而 在 for 循环 中 ， 主 程序 同时 也 对 队列 进行 操作 ， 即 不 停 地 将 数据 从 队列 中 弹出 ， 结 果 如 
图 10-1 所 示 。 


ERROR: tensorflow:Exception in QueueRunner: Attempted to use a closed Session. 
ERROR: tensorflow:Exception in QueueRurnner: Attempted to use a closed Session. 
ERROR: tensorflow:Exception in QueueRunner: Attempted to use a closed Session. 
ERROR: tensorflow:Exception in QueueRunner: Attempted to use a closed Session. 


图 10-1 程序 10-2 执行 结果 
从 中 可 以 看 到 ， 程 序 首先 是 正常 输出 ， 但 是 在 后 半 部 分 程序 执行 时 会 报错 。 


提示 为 队列 管理 器 企图 关闭 会 话 ， 即 循环 已 经 结束 了 ， 会 话 要 关闭 ，main 函数 已 经 结束 。 
如 果 换 一 种 表述 形式 : 


【程序 10-3】 
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可 以 看 到 此 时 的 会 话 并 没有 报错 ， 但 是 程序 也 没有 结束 ， 而 是 被 挂 起 。 造 成 这 种 情况 的 原 
因 是 add 操作 和 入 队 操作 没有 同步 ， 即 TensorFlow 在 队列 设计 时 为 了 优化 IO 系统， 队列 的 操 
作 一 般 使 用 批 处 理 , 这 样 入 队 线程 没有 发 送 结束 的 信息 而 程序 主线 程 期 望 将 程序 结束 , 因此 造 
成 线程 堵塞 程序 被 挂 起 。 


TensorFlow 中 一 般 遇 到 程序 挂 起 的 情况 指 的 是 数据 输入 与 处 理 没有 同步 ， 即 需要 数据 时 
却 没有 数据 被 输入 到 队列 中 ， 那 么 线程 就 会 被 整体 挂 起 。 而 此 时 人 f 也 不 会 报错 而 是 一 直 
处 于 等 待 状态 。 





10.1.2 ”线程 同步 与 停止 


可 以 看 到 ，TensorFlow 中 的 会 话 是 支持 多 线程 的 ， 多 个 线程 可 以 很 方便 地 在 一 个 会 话 下 
共同 工作 ， 并 行 地 相互 执行 。 但 是 通过 程序 演示 也 看 到 ， 这 种 同步 会 造成 某 个 线程 想 要 关闭 对 
话 时 ， 对 话 被 强行 关闭 而 未 完成 工作 的 线程 也 被 强行 关闭 。 

TensorFlow 为 了 解决 多 线程 的 同步 和 处 理 问 题 ， 提 供 了 Coordinator 和 QueueRunner 函数 
来 对 线程 进行 控制 和 协调 。 在 使 用 上 ， 这 2 个 类 必须 被 同时 工作 , 共同 协作 来 停止 会 话 中 所 有 
线程 ， 并 向 等 待 所 有 工作 线程 终止 的 程序 报告 。 


【程序 10-4】 
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在 程序 10-4 中 ，create threads 函数 被 添加 了 一 个 新 的 参数 ， 线程 协调 器 ， 用 于 协调 线程 
之 间 的 关系 , 之 后 启动 线程 以 后 , 线程 协调 器 在 最 后 负责 对 所 有 线程 的 接受 和 处 理 ， 即 当 一 个 
线程 结束 时 ， 线 程 协 调 器 会 对 所 有 的 线程 发 出 通知 ， 协 调 其 完毕 。 


10.1.3 ”队列 中 数据 的 读 取 


TensorFlow 的 队列 支持 很 多 ， 最 简单 的 数据 输入 和 读 取 方式 就 是 对 常量 的 读 取 ， 使 用 的 
是 前 面 所 介绍 的 placeholder。 但 是 这 种 数据 读 取 方 式 需要 手动 传递 array 类 型 的 数据 。 之 后 其 
feed 自动 在 其 内 部 构建 出 一 个 迭代 器 对 数据 进行 迭代 。 

第 三 种 方式 即 是 本 节 所 说 的 通过 队列 的 形式 对 数据 进行 读 取 。 这 种 数据 读 取 方 式 节省 了 大 
量 的 元 余 操 作 , 数据 的 读 取 端 只 需要 和 队列 打交道 , 而 不 需要 和 数据 底层 的 读 取 方式 以 及 数据 
的 类 型 打交道 。 从 而 避免 了 数据 的 预 处 理 等 一 些 耗费 大 量 时 间 和 精力 的 工作 。 

在 前 面 的 队列 程序 演示 中 ， 笔 者 使 用 的 是 FIFOQueue 函数 ， 这 个 函数 创建 一 个 先进 先 出 
的 有 序 队 列 ， 主要 用 于 对 数据 输入 顺序 有 要 求 的 神经 网 络 模型 , 例如 时 序 分析 等 。 还 有 一 种 队 
列 的 创建 方法 是 RandomShuffleQueue 函数 ， 主 要 用 于 无 序 的 读 取 和 输出 数据 样本 。 

10-2 是 通过 队列 读 取 数 据 的 一 个 整体 流程 。 首 先 由 一 个 单线 程 将 文件 名 输入 队列 ， 之 
后 使 用 两 个 Reader 同时 从 队列 中 获取 文件 名 读 取 数 据 , Decoder 使 用 对 应 的 文件 名 将 数据 解码 
后 堆 入 样本 队列 ， 最 后 取出 数据 样本 。 


Filenames Fonerme Eample 





engueue many aequeue engueue 


10-2 ”队列 读 取 数据 流程 
这 里 的 步骤 如 下 : 
(1) 从 磁盘 读 取 数 据 的 名 称 与 路 径 。 
(2) 将 文件 名 堆 入 列队 尾部 。 
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(3) 从 队列 头 部 读 取 文件 名 并 读 取 数 据 。 
(4) Decoder 将 读 取 的 数据 解码 。 
(5) 将 数据 输入 样本 队列 ， 供 后 续 使 用 。 


1 0 .2 csv 文件 的 创建 与 读 取 


CSV 文件 是 最 常用 的 一 个 文件 存储 方式 。 逗 号 分 隔 值 CComma-Separated Values，CSV， 
有 时 也 称 为 字符 分 隔 值 ， 因 为 分 隔 字符 也 可 以 不 是 去 号 ) 文件 以 纯 文 本 形式 存储 表格 数据 ( 数 
字 和 文本 ) 。 纯 文本 意味 着 该 文件 是 一 个 字符 序列 ,不 包含 必须 像 二 进 制 数 字 那 样 被 解读 的 数 
据 。CSV 文件 由 任意 数目 的 记录 组 成 ， 记 录 间 以 某 种 换行 符 分 隔 ; 每 条 记录 由 字段 组 成 ， 字 
段 间 的 分 隔 符 是 其 他 字符 或 字符 串 ， 最 常见 的 是 逗号 或 制 表 符 。 通 常 ， 所 有 记录 都 有 完全 相同 
的 字段 序列 。 


10.2.1 CSV 文件 的 创建 


对 于 CSYV 文件 的 创建 ，Python 语言 有 较 好 的 方法 对 其 进行 实现 ， 而 这 里 只 需要 按 需 求 对 
其 格式 进行 整理 即 可 。 
在 本 书 中 ,TensorFlow 的 CSV 文件 读 取 主要 用 作对 所 需 加 载 文件 的 地 址 和 标签 进行 记录 ， 
如 图 10-3 所 示 。 
[Yi 


慎 image_0001jpg 
四 image_0002jpg 
让 image_0003jpg 
全 image_0004jpg 
鲁 image_0005jpg 
芒 image_0006jpg 
鲁 image_0007jpg 
外 image_0008jpg 
时 image_0009jpg 
时 image_0010jpg 


10-3 文件 夹 中 图 片 名 
新 建 名 为 jpg 的 文件 夹 , 其 中 有 若干 图 片 是 需要 对 其 读 取 地 址 和 标签 的 对 象 。 其 代码 如 下 : 
【程序 10-5】 
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path 首先 作为 文件 夹 的 路 径 被 设 定 , 之 后 的 filenames 是 读 取 文 件 路 径 。 而 strText 是 字符 
串 ， 供 CSV 文件 写 入 使 用 。 通 过 调用 文件 夹 内 容 的 递归 查询 ， 重 新 以 需要 的 格式 拼接 字符 串 
重新 写 入 ， 其 格式 如 图 10-4 所 示 。 
jpg\image_0001.jpg,1 
jpg\image_0002.jpg,1 
jpg\image_0003.jpg,1 
jpg\image_0004.jpg,1 
jpg\image_0005.jpg,1 


10-4 ”图 片 地 址 和 标签 
在 这 里 可 以 看 到 ,每 一 行 被 逗号 分 成 两 部 分 ， 前 面 一 部 分 是 图 片 的 地 址 ， 而 后 面 一 部 分 是 


设 定 的 标签 名 。 标签 名 在 本 例 中 设置 成 1, 或 者 可 以 用 图 片 名 称 的 第 一 个 单词 记录 , 如 果 需 要 ， 
可 以 根据 需求 设 定 不 同 的 标签 。 


尘 





10.2.2 ”CSV 文件 的 读 取 


对 于 在 TensorFlow 使 用 CSV 文件 ， 则 需要 使 用 特殊 的 CSV 读 取 。 这 通常 是 为 了 读 取 硬 
盘 上 图 片 文 件 而 使 用 的 ， 方 便 TensorFlow 框架 在 使 用 时 能 够 一 边 读 取 图 片 一边 对 图 片 数据 进 
行 处 理 。 这 样 做 的 好 处 能 够 防止 一 次 性 读 入 过 多 的 数据 造成 框架 资源 被 耗 尽 。 

对 于 从 CSV 中 读 取 数据 , 在 第 一 节 中 设 定 的 CSV 格式 文件 , 里 面 分 别 存 有 图 片 的 地 址 和 
标签 ， 因 此 需要 2 个 数组 分 别 存放 读 取 的 图 片 地 址 和 标签 。 而 对 于 CSV 文件 中 数据 的 读 取 ， 
只 需要 调用 readlines 函数 ， 直 接 从 CSV 中 读 取 即 可 。 











下 面 将 读 取 的 图 片 转化 成 需要 的 格式 。 在 TensorFlow 中 其 计算 图 接受 的 是 一 个 张 量 ， 
此 需要 先 将 图 片 转化 成 可 以 被 接受 的 格式 。 代 码 如 下 : 














这 里 如 果 将 这 个 长 度 的 代码 拆 分 的 话 ， 可 以 看 到 : 
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@ tfread file(image path): 读 取 图 片 地 址 的 函数 。 

@ tfimage.decode jpeg: 对 读 取 进 来 的 图 片 解码 成 JPG 格式 , 并 在 此 设 定 了 图 像 的 通道 ， 
需要 注意 的 是 ， 当 channels=1 的 时 候 ， 读 取 的 图 像 为 灰 度 ， 也 是 笔者 在 后 续 使 用 的 。 

@ tfimage.convert image _dtype: 对 图 像 进行 转化 ， 将 图 像 矩 阵 转化 成 TensorFlow 需要 
的 张 量 格式 。 


完整 代码 如 下 : 
【程序 10-6】 





打印 结果 如 下 所 示 。 
«Tensor("convert image:0", shape=(?, ?, 1), dtype-float32) 


可 以 看 到 这 里 生成 的 数据 格式 是 Tensor, 但 是 其 shape 是 属于 位 置 ， 因此 对 于 输入 的 数据 
来 说 ， 其 shape 并 没有 指定 。 不 过 一 般 而 言 ， 使 用 的 训练 图 片 和 测试 图 片 都 是 预先 知道 大 小 ， 
因此 这 里 可 以 根据 需要 指定 。 


【程序 10-7】 
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程序 10-7 演示 了 如 何 将 图 片 重新 读 取出 来 ， 这 里 通过 会 话 的 run 函数 重新 获取 了 图 片 的 
和 矩阵 信息 ， 之 后 cv2 包 重 构 了 矩阵 大 小 并 将 其 重新 显示 。 


刁 志 cv2 包 的 介绍 在 前 面 已 经 有 过 详细 说 明 。 


1 0 .3 TensorFlow 文件 的 创建 与 读 取 


除了 典型 的 CSV 文件 提供 数据 的 存储 地 址 和 标签 外 ，TensorFlow 还 有 专门 的 文件 存储 和 
读 取 格 式 : TFRecords 文件 。 这 是 TensorFlow 专门 提供 的 、 允 许 将 任意 数据 转化 成 TensorFlow 
所 支持 的 格式 ， 使 得 相应 的 数据 集 更 容易 与 网 络 应 用 架构 相 匹 配 。 


10.3.1 TFRecords 文件 的 创建 


TFRecords 是 TensorFlow 专用 的 数据 文件 格式 。 其 中 包含 了 tftrain.Example 协议 内 存 块 
(protocol buffsr ) ， 这 只 包含 特征 值 与 数据 内 容 的 一 种 数据 格式 。 通 过 
tfpython_io.TFRecordWriter 类 ， 可 以 获取 相应 的 数据 并 将 其 填 入 到 Example 协议 内 存 块 中 ， 
最 终生 成 TFRecords 文件 。 

换 名 话说， 一 个 tftrain.Example 包含 着 若干 数据 的 特征 〈Features) ， 而 Features 中 又 包 
含 着 Feature 字典 。 更 进一步 的 细节 说 明 , 任何 一 个 Feature 中 又 包含 着 FloatList, 或 者 ByteList， 
或 者 Int64List, 这 三 种 数据 格式 之 一 。 TFRecords 就 是 通过 一 个 包含 着 二 进 制 文件 的 数据 文件 ， 
将 特征 和 标签 进行 保存 以 便于 TensorFlow 读 取 。 
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上 面 代码 段 是 TFRecords 写 入 文件 的 经 典 格式 ， 即 对 样本 的 序列 化 之 后 进行 写 操作 完成 。 
至 于 TFRecords 写 入 格式 ， 可 以 直接 看 源码 ， 下 面 是 TFRecords 的 核心 部 分 : 


从 源码 中 摘录 的 部 分 可 以 看 到 ,可 以 接受 3 种 数据 格式 , 分 别 为 BytesList、FloatList 以 及 
Int64List。 


【程序 10-8】 
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从 上 面 的 代码 段 可 以 看 到 ，a_data、b_data 以 及 c_data 是 3 种 不 同类 型 的 数据 。a_data 为 
float 类 型 ， 因 此 在 下 面 写 入 时 使 用 FloatList 格式 ; b_data 用 作 列 表 的 写 入 ;而 对 于 其 他 类 型 


的 数据 ， 例 如 数组 或 者 字符 串 等 ， 则 需要 统一 地 设置 成 二 进 制 的 形式 进行 写 入 。 
程序 10-9 演示 了 随机 生成 一 个 数据 并 将 其 保存 为 TFRecords 的 例子 。 


【程序 10-9】 


首先 第 一 步 是 生成 随机 数组 。 
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之 后 需要 注意 的 是 , 任何 一 个 TFRecords 能 够 保存 的 只 能 是 二 进 制 数 据 , 因此 必须 要 有 一 
个 专门 的 步骤 将 数组 转化 成 二 进 制 形式 。 


之 后 在 for 循环 中 ， 每 次 使 用 NumpPy 的 随机 模式 生成 一 个 1 行 3 列 的 数组 ， 将 其 转化 为 
二 进 制 后 写 入 example 中 。 


10.3.2 TFRecords 文件 的 读 取 


TFRecords 的 文件 读 取 稍微 麻烦 一 点 。 首 先 要 将 在 TFRecords 中 的 数据 以 输入 的 格式 读 取 
出 来 ， 笔 者 在 程序 10-7 中 演示 了 写 入 3 个 不 同类 型 的 数据 到 TFRecords， 现 在 需要 将 其 读 取 
出 来 ， 具 体 实现 的 代码 段 如 下 : 





首先 定义 了 一 个 数据 队列 ， 将 文件 名 推 入 队列 中 。 队 列 根据 文件 名 读 取 数据 ，Decoder 将 
读 出 的 数据 解码 。 但 是 如 果 读者 运行 了 此 代码 段 并 进行 打印 的 话 ， 可 以 发 现 , 这 个 代码 段 是 无 
法 进行 执行 的 ， 因 为 与 刚才 的 writer 不 同 ， 这 个 reader 是 符号 化 的 ， 只 有 在 sess 中 run 才 会 执行 。 

如 果 需 要 将 数据 打印 或 者 进一步 地 执行 ， 则 需要 使 用 专门 的 读 取 函 数 tftrain.shuffle_batch 
来 执行 。 具 体 使 用 的 代码 段 如 下 : 
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芷 train.shuffle_batch 函数 用 于 从 TFRecords 中 读 取 数据 ， 并 且 保 证 每 次 读 取出 的 数据 其 内 
容 与 标签 同步 ， 不 会 造成 不 匹配 的 现象 。 其 返回 值 就 是 RandomShuffleQueue.dequeue_many()， 
即 从 队列 中 弹出 若干 个 元 素 并 在 队列 中 进行 删除 操作 。 

更 进一步 的 解释 请 读者 参考 10.1.3 节 中 图 10-2。 在 前 面 已 经 说 了 , batch 进行 读 取 的 时 候 ， 
TensorFlow 新 建 一 个 队列 queues 和 QueueRunners。 而 tftrain.shuffle_batch 函数 的 具体 用 处 就 
是 构建 了 一 个 新 的 读 取 队 列 , 不 断 地 把 单个 元 素 送 入 到 队列 中 。 而 为 了 保证 队列 不 陷入 停滞 状 
态 ， 从 而 通过 QueueRunners 启动 了 一 个 专门 的 线程 来 完成 。 

当 队 列 中 的 个 数 达到 batch_size 和 min_after_ dequeue 之 和 后 ， 队 列 会 随机 将 batch_size 个 
元 素 弹 出 。 事 实 上 ， 其 返回 值 就 是 RandomShuffleQueue.dequeue_many 函数 的 返回 值 。 可 以 认 
为 ，tf.train.shuffle_batch 函数 的 功能 就 是 将 解码 完毕 的 样本 加 入 一 个 队列 中 ， 按 需要 弹出 一 个 
batch_size 大 小 的 样本 。 

可 能 有 读者 注意 到 ， 在 会 话 〈Session) 正式 启动 之 前 ， 有 一 条 启动 线程 的 代码 ; 


这 个 函数 的 作用 就 是 在 会 话 启动 前 ， 需 要 让 TensorFlow 知道 哪些 线程 要 启动 ， 否 则 有 可 
能 造成 队列 被 挂 起 从 而 堵塞 TensorFlow 框架 的 运行 。 这 个 调用 在 会 话 执行 前 就 已 经 开始 运行 ， 
能 够 自动 地 启动 框架 内 的 线程 对 队列 进行 填写 , 以 便 队 列 在 会 话 真正 进行 输出 的 时 候 能 够 有 数 
据 输出 ， 否 则 会 造成 大 量 的 错误 。 


10.3.3 图 片 文件 的 创建 与 读 取 
首先 是 对 文件 位 置 的 确定 ， 图 10-5 设置 了 加 载 图 片 数据 目录 。 


Y 名 jpg 

v Mo0l 
全 image_0000jpg 
晶 image_0001jpg 
时 image_0002jpg 
外 image_0003.jpg 
是 image_0004jpg 
加 image_0005jpg 

Y Mo002 
时 image_0006jpg 
全 image_0007jpg 
恒 image_0008.jpg 
避 image_0009jpg 
皇 image_0010jpg 


图 10-5 图 片 加 载 目录 
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可 以 看 到 ， 数 据 图 片 被 归 类 到 不 同 的 图 片 文件 中 ， 这 也 是 图 片 分 类 的 常用 手段 。 
程序 10-10 演示 了 读 取 硬盘 上 图 片 文件 将 其 保存 为 TFRecords 的 例子 ， 在 这 个 例子 中 , 使 
用 每 个 图 片 的 文件 名 作为 标签 ， 这 也 是 文件 处 理 的 常用 手段 之 一 。 


【程序 10-10】 





程序 10-10 首先 定义 了 需要 导入 的 包 和 图 片 存储 的 路 径 : 





之 后 的 一 个 for 循 环 , 从 文件 夹 中 取出 下 一 层 的 文件 夹 名 和 每 个 文件 夹 中 的 图 片 文件 名 称 ， 
之 后 将 图 片 文件 取出 改变 其 矩阵 大 小 , 并 以 字符 串 的 形式 进行 存储 。 之 后 的 example 分 别 以 图 
片 所 属 的 文件 夹 名 称 和 图 片 本 身 作 为 标签 和 特征 写 入 到 TFRecords 中 进行 存储 。 

至 于 在 TFRecords 文件 中 ， 同 样 需要 使 用 TFRecordReader， 具 体 程序 见 程序 10-11。 


【程序 10-11】 
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程序 10-11 中 首先 定义 了 TFRecords 的 文件 名 ， 之 后 TFRecordReader 中 的 read 函数 将 读 
取 文 件 , 之 后 通过 特征 名 和 标签 名 进行 解析 。 在 这 里 需要 注意 的 是 ， 因 为 图 片 在 存储 时 是 以 字 
符 串 形式 存储 的 矩阵 , 因此 解析 时 需要 以 字符 串 格式 进行 解析 。 之 后 重新 调整 解析 后 的 字符 串 
格式 和 维度 ， 重 新 生成 图 片 文件 。 

此 时 生成 的 img 是 以 张 量 的 形式 输出 ， 如 果 需 要 查阅 最 终生 成 的 图 片 ， 需 要 的 具体 程序 
见 程序 10-12 所 示 。 


【程序 10-12】 
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因为 此 时 图 片 被 解析 后 生成 的 是 一 个 张 量 ， 所 以 需要 通过 会 话 重 新 将 其 解析 成 图 片 矩阵 。 
前 面 已 经 说 过 ， 数 据 其 实 是 被 直接 填充 到 队列 里 ， 因 此 必须 使 用 tftrain.start_queue_runners 先 
启动 队列 ， 之 后 通过 会 话 的 run 函数 正式 执行 图 片 格式 的 解析 。 

cv2 在 前 面 已 经 介绍 ， 是 对 图 片 修正 和 显示 的 包 ， 在 此 可 以 对 图 片 进行 显示 。 

可 能 有 读者 注意 到 , 在 程序 10-12 中 ,只 有 第 一 张 图 片 被 显示 ， 这 是 因为 TFRecordReader 
在 每 次 读 取 时 ， 总 是 仅仅 通过 Iterator 的 方式 读 取 当 前 队列 的 第 一 个 元 素 ， 其 他 元 素 在 队列 中 
进行 等 待 。 





上 面 的 代码 段 通过 Iterator 对 train.tfrecords 进行 迭代 ， 每 次 取出 其 中 的 一 个 元 素 解析 后 将 
其 特征 和 标签 输出 。 
为 了 增加 读 取 的 通用 性 , 可 以 将 程序 10-11 改 成 专门 的 读 取 相关 数据 的 函数 , 其 形式 如 下 : 
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如 果 需 要 将 数据 取出 供 图 使 用 ,可 以 使 用 前 文 所 介绍 的 tftrain.shuffle_batch 函数 。 这 里 需 
要 详细 介绍 一 下 其 中 的 参数 : 


shuffle_batch 中 主要 有 4 个 参数 : 


tensors: 输入 的 文件 张 量 ， 即 由 TFRecords 解析 获得 的 张 量 文件 。 

batch_size: 每 次 弹出 的 元 素数 目 。 

capacity: 队列 能 够 容纳 的 最 大 元 素 个 数 。 

min_after dequeue: 指出 队列 操作 后 还 可 以 供 随机 采样 出 批量 数据 的 样本 池 大 小 ， 显 
然 ，capacity 要 大 于 min_after dequeue， 官 网 推荐 : min_after_dequeue + (num_threads 
+asmall safety margin) * batch_size， 还 有 一 个 参数 就 是 num_threads， 表 示 所 用 线程 
数目 。 


读 取 数 据 的 程序 段 如 下 所 示 。 





可 以 看 到 ,这 里 同样 是 使 用 了 train.start_queue_runners 函数 去 启动 Tesnorflow 中 所 有 队列 ， 
因为 生成 的 img_batch、label_batch 在 队列 中 , 所 以 通过 一 个 for 循环 不 停 地 从 中 获取 数据 。 完 
整 代码 如 程序 10-13 所 示 。 


【程序 10-13】 
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这 里 通过 一 个 for 循环 ， 将 图 片 不 停 地 读 出 ， 之 后 cv2 将 其 重 构 为 可 以 显示 的 图 片 文件 ， 
最 后 打印 出 图 片 标签 。 

当然 了 ， 一 般 情 况 下 ， 不 需要 直接 读 取 img_batch、label_batch 中 的 内 容 ， 而 只 需 将 其 传 
递 给 需要 进行 递归 的 数据 即 可 。 


10.4 本 章 小 结 


TensorFlow 数据 的 生成 与 读 取 是 非常 重要 的 ， 但 是 由 于 很 多 原因 ， 它 不 被 重视 ， 因 此 在 
TensorFlow 的 学 习 过 程 中 ， 大 多 数 读者 往往 只 会 使 用 给 定 的 、 制 作 好 的 数据 集 ， 而 不 会 使 用 
自己 的 数据 集 去 训练 框架 。 

本 书 是 国内 第 一 本 全 面 介绍 TensorFlow 数据 的 生成 与 读 取 的 书 ， 详 细 介 绍 了 TensorFlow 
队列 的 生成 ,讲解 了 在 文件 传输 过 程 中 由 于 线程 的 异步 会 造成 主线 程 的 崩溃 和 造成 队列 堵塞 的 
原因 :其 次 讲解 了 CSV 文件 的 创建 与 读 取 ， 这 是 通过 传统 的 方式 对 硬盘 上 信息 进行 提取 和 训 
练 的 常用 方式 。TFRecords 是 TensorFlow 专用 的 读 写 方 式 ， 它 通过 二 进 制 的 形式 把 数据 写 入 
文件 中 ， 使 之 可 以 通过 和 夫 代 的 方式 进行 读 取 。 

每 一 种 数据 的 读 写 方式 都 有 其 优 缺 点 ，CSYV 文件 的 读 写 主要 是 经 过 文件 的 转化 和 重 构 ， 
这 在 系统 资源 不 是 很 强 的 时 候 训练 开销 较 大 、 速度 较 慢 ; 而 TFRecords 主要 的 问题 是 在 生成 过 
程 中 会 产生 大 量 的 元 余 文 件 , 大 大 占有 了 硬件 的 内 存 空间 。 因 此 , 在 实际 应 用 中 究竟 使 用 哪 种 
数据 生成 和 读 取 方式 还 需要 看 实际 情况 进行 取舍 。 
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回 旧 分 析 一 一 MTensorFlow 
陷 哇 与 细节 开始 


前 面 已 经 介绍 了 TensorFlow 的 一 些 基本 数据 类 型 和 其 构成 的 原理 ,介绍 了 TensorFlow 框 
架 在 运行 时 是 由 “图 ”在 背后 完成 ， 任 何 一 个 看 似 简单 的 任务 都 必须 由 “会 话 ” 去 完成 。 

在 对 原理 讲解 时 , 主要 介绍 了 其 中 的 数学 知识 。 在 神经 网 络 中 应 用 最 广 的 是 最 小 二 乘法 与 
梯度 下 降 算 法 ,最 小 二 乘法 的 作用 是 能 够 获取 模型 的 计算 值 与 真实 值 之 间 的 差距 而 梯度 下 降 算 
法 使 得 原本 计算 非常 复杂 的 权重 更 新 变 得 简单 易 用 

神经 网 络 的 核心 思想 是 误差 反馈 的 计算 , 在 神经 网 络 中 , 通过 分 配 输出 误差 的 梯度 从 而 使 
得 权重 更 新 被 分 配 到 符合 每 个 神经 元 地 位 的 权 值 之 上 。 更 值得 一 提 的 是 , 反馈 计算 的 核心 是 导 
数 计算 的 链 式 法 则 ， 然 而 在 实际 中 ， 链 式 法 则 往往 会 造成 计算 量 爆发 ， 计 算 量 特别 大 ， 因 而 在 
隐藏 层 或 者 神经 元 过 多 时 都 会 造成 计算 量 的 指数 增长 ,而 结合 了 梯度 下 降 算 法 获得 的 链 式 法 则 
把 反馈 计算 的 链 式 推导 限定 在 直接 相连 的 权重 线 的 两 端 ， 从 而 大 大 减少 了 计算 量 。 

本 章 开始 将 正式 进入 TensorFlow 程序 设计 的 内 容 ， 从 最 简单 的 线性 回归 开始 ， 逐 步 过 渡 
到 逻辑 回归 。 当 然 本 章 并 不 是 简单 地 介绍 这 些 程序 的 编写 , 而 是 希望 引导 读者 在 进入 更 为 复杂 
的 程序 编写 前 ， 了 解 TensorFlow 程序 设计 的 各 种 陷阱 和 掌握 其 细节 处 理 的 内 容 。 














TensorFlow 线性 回归 


线性 回归 是 利用 数理 统计 中 回归 分 析 , 来 确定 两 种 或 两 种 以 上 变量 间 相 互 依赖 的 定量 关系 
的 一 种 统计 分 析 方法 ， 运 用 十 分 广泛 。 其 表达 形式 为 ?= wx+te，e 为 误差 服从 均值 为 0 的 正 态 
分 布 。 
线性 回归 是 获取 数据 变量 与 影响 因素 之 间 关 系 的 一 种 因素 。 在 回归 分 析 中 如 果 只 包含 
自 变量 和 一 个 因 变量 , 且 二 者 关系 可 以 用 一 条 直线 近似 地 表示 , 那么 这 种 回归 分 析 被 称 为 一 元 
线性 回归 。 而 如 果 包 含 两 个 或 者 两 个 以 上 影响 因素 或 自 变量 的 话 , 那么 这 种 回归 就 会 被 称 为 多 
元 线性 回归 。 
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11.1.1 线性 回归 详解 与 编程 实战 
线性 回归 是 数学 分 析 , 即 回归 分 析 中 一 种 经 过 严格 测试 和 研究 并 在 实际 中 应 用 非常 广泛 的 
一 种 回归 类 型 .这 是 因为 线性 回归 模型 依赖 于 其 未 知 参数 的 模型 比 非 线性 依赖 于 其 位 置 参数 的 


模型 更 容易 拟 合 ， 而 且 产生 的 估计 的 统计 特性 也 更 容易 确定 。 
线性 回归 有 很 多 实际 用 途 。 分 为 以 下 两 大 类 : 


(1) 如 果 目 标 是 预测 或 者 映射 ， 线 性 回归 可 以 用 来 对 观测 数据 集 的 和 x 的 值 拟 合 出 一 个 
预测 模型 。 当 完成 这 样 一 个 模型 以 后 ， 对 于 一 个 新 增 的 x 值 ， 在 没有 给 定 与 它 相 配对 的 y 的 情 
况 下 ， 可 以 用 这 个 拟 合 过 的 模型 预测 出 一 个 y 值 。 


这 是 比方 差分 析 进 一 步 的 作用 ,就 是 根据 现在 ,预测 未 来 。 虽然 ,线性 回归 和 方差 都 是 需 
要 因 变 量 为 连续 变量 ， 自 变量 为 分 类 变量 ， 自 变量 可 以 有 一 个 或 者 多 个 , 但 是 , 线性 回归 增加 
另 一 个 功能 , 也 就 是 赁 什么 预测 未 来 , 就 是 凭 回归 方程 。 这 个 回归 方程 的 因 变量 是 一 个 未 知 数 ， 
也 是 一 个 估计 数 ， 虽 然 估 计 ， 但 是 ， 只 要 有 规律 ， 就 能 预测 未 来 。 


(2) 给 定 一 个 变量 了 和 一 些 变量 轴 ，…， 妃 ， 这 些 变量 有 可 能 与 了 相关 ， 线 性 回归 分 析 
可 以 用 来 量化 了 与 六 之 间 相关 性 的 强度 ， 评 估 出 与 了 不 相关 的 蕊 ， 并 识别 出 哪些 蕊 的 子 集 包 
含 了 关于 了 的 元 余 信 息 。 


下 面 笔者 使 用 一 种 数据 说 明 线性 回归 。 假设 随机 生成 一 个 数组 ， 其 中 包含 若干 个 数字 。 代 
码 如 下 : 


xdata=nprandomrandn(10) 
这 里 随机 生成 了 10 个 数字 ， 之 后 根据 y=y(x) = 0.3Xx+ 0.15 可 以 得 到 一 系列 的 结果 。 


如 果 此 时 假设 y=y() 这 个 函数 是 属于 未 知 状态 , 想 要 一 个 最 简单 的 方式 来 模拟 这 组 数据 ， 
最 首要 考虑 的 是 将 其 图 像 化 表示 出 来 ， 如 图 11-1 所 示 。 





图 11-1 数据 图 像 化 表示 
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可 以 看 到 ， 这 组 数据 近似 地 在 复合 一 条 直线 的 角度 ， 因 此 使 用 一 阶 的 线性 方程 最 为 合适 。 

TensorFlow 使 用 线性 回归 对 数据 进行 分 析 是 一 种 基本 的 简单 技能 ， 主 要 通过 最 小 二 乘法 
求 得 真实 值 与 模型 计算 值 之 间 的 差距 ， 之 后 通过 梯度 下 降 算 法 可 以 求 得 权重 的 修正 值 。 程 序 
11-1 演示 了 通过 TensorFlow 进行 线性 回归 计算 的 方法 。 


【程序 11-1】 





从 中 可 以 看 到 ， 首 先 通过 np 包 生 成 了 10 个 随机 数 ， 之 后 使 用 给 定 的 函数 关系 生成 筷 值 
和 了 了 值 之 间 对 应 的 关系 。 





weight 和 bias 是 通过 女生 成 的 变量 ， 这 2 个 值 在 TensorFlow 图 框架 计算 过 程 中 是 根据 梯 
度 值 不 停 地 进行 调整 。y_model 是 计算 的 模型 值 ， 这 里 采用 理论 计算 的 方式 ， 即 weight 与 
x_data 的 乘积 加 上 bias。 
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损失 函数 和 求 导 规则 采用 传统 的 最 小 二 乘法 和 随机 梯度 下 降 算法 进行 ， 设 置 的 学 习 率 是 
0.01， 使 得 计算 能 够 完成 。 

最 后 的 数值 迭代 过 程 中 , 这 里 使 用 的 是 批量 计算 的 方式 进行 计算 , 这样 做 的 好 处 是 可 以 一 
次 性 把 所 有 的 数据 读 取 到 内 存 中 ， 让 计算 模型 可 以 在 最 短 时间 内 对 数据 进行 处 理 。 

最 终 计算 结果 如 图 11-2 所 示 。 








se Original data 
一 Fitted line 














图 11-2 线性 回归 分 析 结 果 


到 此 通过 TensorFlow 编写 的 线性 回归 程序 基本 上 已 经 完成 。 可 能 有 读者 认为 自己 已 经 党 
握 了 线性 回归 的 编写 ， 但 是 请 回 到 本 章 的 标题 ， 本 章 的 主要 内 容 是 介绍 TensorFlow 在 程序 设 
计时 产生 的 陷阱 与 需要 注意 的 细节 问题 。 那么 聪明 的 你 一 定 能 猜 出 来 , 这 个 看 似 简单 的 线性 回 
归程 序 中 隐藏 着 很 多 的 陷阱 ,还 需要 优化 进行 调节 ， 那么 从 下 一 小 节 开 始 ,将 会 带领 大 家 通过 
不 同 的 方式 对 其 细节 进行 调整 。 


11.1.2 ”线性 回归 编程 中 的 陷阱 与 细节 设计 


本 节 内 容 介绍 程序 设计 中 的 陷阱 与 细节 ,笔者 将 会 从 头 开 始 一 步 步 地 带领 读者 见识 其 中 的 
陷阱 。 

首先 对 于 训练 模型 来 说 , 数据 量 的 多 少 是 训练 模型 能 和 否 成 功 的 一 个 最 为 关键 性 问题 。 程 序 
11-1 中 随机 生成 的 数据 只 有 10 个 ， 这 在 目前 是 完美 地 达到 了 模型 训练 目的 。 

但 是 如 果 数 据 量 增 大 ， 达 到 100 个 的 时 候 ， 会 产生 什么 问题 ? 代码 如 下 : 


此 时 运行 程序 来 查看 通过 改动 生成 数据 量 的 多 少 对 整体 模型 的 影响 ， 其 结果 如 图 11-3 
所 示 。 
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weighe: 4.00516e+34 | bias: -3.57422et34 
weighe: -6.02999e+34 | bias: 5.38119e+34 
weighe: 9.07848e+34 | bias: -8.10168e+34 
weighe: -1. 36682e+35 | bias: 1.21975e+35 
weighe: 2.05782e+35 | bias: -1.8364e+35 
weighe: -3.09816e+35 | bias: 2.76481e+35 


e 。 Original data 
一 Fitted line 





图 11-3 扩大 数据 后 线性 回归 分 析 结果 


从 结果 的 图 形 合成 可 以 看 到 , 生成 的 回归 模型 严重 偏离 正确 的 数据 曲线 。 权重 值 和 偏 置 值 
并 不 能 收敛 到 一 个 固定 的 常数 ， 因 此 可 以 认为 此 模型 的 训练 是 失败 的 。 

现在 分 析 模 型 训练 失败 的 原因 。 对 于 原因 的 分 析 最 重要 的 就 是 观察 其 与 正常 输出 模型 的 差 
异性 。 从 前 文 描 述 来 看 , 这 里 最 大 的 改变 量 就 是 数据 容量 的 改变 。 而 数据 容量 的 变化 在 模型 中 
最 大 的 影响 因素 就 是 数据 的 输入 量 。 

在 程序 11-1 中 ， 数 据 的 输入 是 批量 输入 ， 这 样 做 的 好 处 是 可 以 最 大 限度 地 节省 从 硬盘 读 
取 数 据 的 时 间 从 而 使 数据 能 够 在 最 短 时 间 内 进入 框架 运行 。 但 是 这 样 做 使 得 数据 量 繁杂 , 而 目 
前 也 是 因为 修改 了 数据 量 从 而 使 得 模型 训练 失败 , 那么 如 果 对 输入 的 数据 量 进行 修改 , 能 不 能 
修正 输出 的 数据 使 得 结果 能 够 符合 要 求 。 

因此 可 以 转化 数据 的 输入 方式 ， 由 批量 输入 转化 为 逐个 输入 ， 代 码 如 下 : 


而 对 于 数据 方式 的 改变 ， 相 应 的 模型 需要 做 出 调整 ， 即 x 和 y 需要 作为 输入 量 进行 输入 。 
请 读者 回忆 下 ， 在 前 面 学 习 的 内 容 中 ，TensorFlow 有 专门 的 作为 数据 输入 的 占 位 符 ， 因 此 在 
新 的 模型 中 需要 使 用 占 位 符 作为 数据 输入 的 占 位 点 。 


而 对 于 损失 函数 ， 应 改 为 : 
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loss = tpow(Y modeal -y)2 
此 时 模型 修改 成 程序 11-2 所 示 : 
【程序 11-2】 





从 中 可 以 看 到 ， 此 时 代码 被 修改 为 使 用 tf 占 位 符 的 模式 。 这 样 做 的 好 处 是 使 用 了 
TensorFlow 框架 特有 的 数据 格式 ， 数 据 在 输入 时 被 修改 成 图 运算 需要 的 张 量 模式 。 

从 图 11-4 中 可 以 看 到 ， 大 概 经 过 6 次 完整 的 数据 输入 后 weight 和 bias 产生 了 收敛 ,最 终 
生成 的 数据 拟 合 曲线 图 也 符合 真实 的 图 形 ， 因 此 可 以 认为 这 次 修改 是 成 功 的 。 
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® original data 


weighe: 0.322718 | bias: 0.081424 EC— Mi 
weighe: 0.302738 | bias: 0.0969335 0 
weighe: 0.300348 | bias: 0.0995207 025 
weighe: 0.300046 | bias: 0.0999272 ooo 


weighe: 0.300006 | bias: 0.0999891 -0.25 
weighe: 0.300001 | bias: 0.0999984 总 页 
weighe: 0.3 | bias: 0.0999998 
weighe: 0.3 | bias: 0.0999999 
weighe: 0.3 | bias: 0.0999999 

weighe: 0.3 | bias: 0.0999999 DN 














11-4 ”修改 模型 后 线性 回归 分 析 结果 


下 面 继续 对 程序 进行 调整 ， 首 先 对 于 模型 的 计算 y_model = weight * x_+ bias， 这 是 完全 
按 传 统 的 形式 进行 设计 ， 乘法 和 加 法 完全 由 数学 符号 完成 。 虽然 这 样 也 可 以 胜任 工作 , 但 是 对 
于 TensorFlow 的 图 运算 来 说 无 疑 是 增 大 开销 ， 特 别 是 模型 的 设计 ， 在 每 次 运算 时 都 需要 使 用 
这 样 的 转化 ， 因 此 笔者 建议 使 用 tf 特有 的 函数 进行 处 理 。 同 样 这 样 做 的 棘 端 还 在 于 当 传 输 的 
数据 为 张 量 时 也 可 以 较 好 地 完成 而 整体 程序 不 会 报错 。 

代码 段 如 下 : 


当 读者 看 到 这 里 应 该 会 认为 调整 的 基本 都 已 经 结束 。 很 遗憾 地 告诉 你 ， 在 修改 后 的 程序 
11-2 中 还 有 一 个 非常 重要 的 内 容 没 有 处 理 ， 猜 猜 看 ， 是 哪里 ? 

前 面 介绍 时 已 经 做 了 说 明 , 损失 函数 是 神经 网 络 中 非常 重要 的 一 环 , 同样 使 用 的 是 常用 的 
损失 函数 ， 即 : 


损失 函数 除了 可 以 计算 当前 数据 与 真实 值 之 间 的 差距 ,还 可 以 通过 其 设 定 当 计算 误差 小 于 
一 个 阅 值 时 ， 模 型 训练 结束 。 有 具体 代码 如 11-3 所 示 : 


【程序 11-3】 





第 11 章 回归 分 析 一 -从 TensorFlow 陷阱 与 细节 开始 








程序 11-3 可 以 看 到 threshold = 1.0e-2 是 被 人 为 设置 的 阔 值 ， 当 误差 小 于 0.01 时 模型 训练 
即 可 停止 ， 之 后 一 个 fag 和 while 循环 确保 训练 在 没有 达到 阔 值 之 前 不 会 停止 。 这 种 使 用 flag 
作为 模型 控制 的 开关 的 方式 在 后 面神经 网 络 设计 中 是 一 种 较为 常见 的 方式 。 

最 后 损失 函数 的 输出 结果 如 下 : 


匡 志 | 有 兴趣 的 读者 可 以 打印 出 损失 函数 观察 损失 函数 的 变化 。 


11.1.3 ”TensorFlow 多 元 线性 回归 


对 于 线性 回归 的 分 类 ， 除 了 前 面 介绍 过 的 一 元 线性 回归 ， 还 有 一 种 称 为 多 元 线性 回归 。 

一 元 线性 回归 是 一 个 主要 影响 因素 作为 自 变 量 来 解释 因 变量 的 变化 。 在 现实 问题 研究 中 ， 
因 变 量 的 变化 往往 受 几 个 重要 因素 的 影响 , 此 时 就 需要 用 两 个 或 两 个 以 上 的 影响 因素 作为 自 变 
量 来 解释 因 变 量 的 变化 , 这 就 是 多 元 回归 亦 称 多 重 回归 。 当 多 个 自 变量 与 因 变 量 之 间 是 线性 关 
系 时 ， 所 进行 的 回归 分 析 就 是 多 元 线性 回归 。 
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多 元 线性 回归 的 模型 为 : 
VF=% Xm+xX XxXw,+hb 
其 中 x 与 wi 分 别 是 输入 值 与 权重 ， 因 此 可 以 递 推 得 到 : 
[ee A 
这 是 多 元 线性 回归 的 一 般 形式 , 多 元 线性 回归 模型 的 参数 估计 , 同一 元 线性 回归 方程 一 样 ， 


也 是 在 要 求 误差 平方 和 为 最 小 的 前 提 下 ， 用 最 小 二 乘法 求解 参数 。 
程序 11-4 演示 了 使 用 多 元 线性 回归 进行 模型 计算 的 代码 。 


【程序 11-4】 





第 11 章 回归 分 析 - -从 TensorFlow 陷阱 与 细节 开始 


一 ee 
pltshow() 首 先 建立 了 数据 模型 : 





了 三 巴 文 2 二 十 %3+ 二 5 
此 时 模型 中 是 2 个 变量 , 分 别 与 输入 的 2 个 值 相 乘 , 之 后 加 上 一 个 偏 置 数 共同 完成 模型 的 
设计 。 
之 后 是 对 模型 中 参数 进行 设置 ， 这 里 定义 了 5 个 参数 ， 分 别 为 weightl 与 weight2 以 及 偏 
置 bias, 采用 的 是 tt.Variable 函数 ， 用 于 在 模型 进行 梯度 计算 时 进行 数值 更 新 。xl_ 和 x2_ 以 及 
y_ 是 占 位 符 ， 需 要 对 数据 进行 不 断 地 填充 供 模 型 使 用 。 





最 后 是 模型 的 建立 ， 在 程序 11-4 中 ， 模 型 由 上 述 公式 设计 ， 因 此 将 其 转化 为 从 描述 的 代 


最 后 是 数据 的 输入 过 程 ， 此 时 数据 输入 有 3 个 部 分 ,分别 为 x1_ 和 x2_ 以 及 y_。 在 这 里 为 
了 将 数据 一 次 性 输入 到 模型 中 ， 使 用 的 是 Python 语言 中 的 zip 函数 进行 处 理 ， 代 码 段 如 下 : 





同样 地 还 是 设置 阔 值 数 , 当 模 型 的 损失 函数 小 于 阔 值 时 , 模型 的 训练 结束 , 打印 训练 结果 。 
具体 结果 如 图 11-5 所 示 。 


weightl: 2.00541 weight2: 2.9757 bias: 1.50088 





11-5 ”多 元 线性 回归 分 析 结果 
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在 这 里 可 以 看 到 左边 的 图 较 好 地 计算 出 模型 中 的 权重 ， 而 右 侧 是 数据 平面 的 3D 切割 图 。 








必 却 读者 可 以 尝试 使 用 更 多 的 变量 数 去 拟 合 模型 ， 创 建 更 多 的 多 元 回归 模型 。 | 








1 1 .2 多 元 线性 回归 实战 编程 


首先 回顾 一 下 本 书 在 前 面 章 节 的 一 个 实际 问题 , 解决 房屋 价格 和 面积 之 间 的 关系 。 在 那个 
例子 中 ， 笔 者 使 用 的 也 是 线性 回归 求 取 了 房屋 面积 与 房屋 价格 之 间 的 关系 ， 即 给 定 一 个 变量 ， 
之 后 建立 结果 与 变量 之 间 的 模型 , 最 后 通过 模型 求 取 未 知 变量 的 预测 结果 , 也 就 是 最 终 房价 的 
结果 。 
回溯 一 下 模型 训练 的 步 又 : 


@ ”找到 一 条 离 所 有 数据 点 距离 和 最 小 的 直线 。 
@ ”使 用 这 条 直线 去 预测 未 知 的 房价 ， 如 图 11-6 所 示 。 








> 





图 11-6 单一 线性 回归 预测 图 形 


11.2.1 ”多 元 线性 回归 实战 的 编程 一 一 房屋 价格 计算 

但 是 实际 上 , 对 房屋 价格 的 影响 因素 不 仅仅 只 是 面积 , 其 中 房间 数量 的 多 少 、 所 处 的 位 置 、 
房屋 的 朝向 以 及 社区 环境 的 好 坏 都 是 影响 因素 在 本 小 节 中 将 在 原本 的 仅仅 考虑 房屋 面积 与 价 
格 之 上 增加 一 个 因素 ， 即 房间 的 数量 。 

图 11-7 展示 了 房屋 价格 以 及 房屋 面积 和 房间 数 的 空间 点 数据 。 参 考 前 面 知识 可 以 看 到 ， 
需要 建立 一 个 数据 与 结果 一 一 对 应 的 平面 去 帮助 我 们 预测 结果 。 
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图 11-7 房屋 价格 与 房屋 面积 和 房间 数 之 间 关 系 


【程序 11-5】 
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具体 结果 请 读者 自行 打印 完成 。 


11.2.2 ”多 元 线性 回归 实战 的 推广 一 一 数据 的 矩阵 化 


上 一 节 简 单 演示 了 一 个 二 元 线性 回归 预测 房屋 价格 的 问题 ,但 是 在 上 一 节 的 开头 就 已 经 提 
到 , “对 房屋 价格 的 影响 因素 不 仅仅 只 是 面积 ， 其 中 房间 数量 的 多 少 、 所 处 的 位 置 、 房 屋 的 朝 
向 以 及 社区 环境 的 好 坏 都 是 影响 因素 。” 因 此 在 进行 程序 设计 时 需要 考虑 这 些 更 多 的 因素 。 
对 于 程序 设计 人 员 来 说 ， 其 工作 就 是 把 上 面 需 要 考虑 到 的 因素 通过 语言 的 形式 表示 出 来 ， 
因此 上 述 语 言 可 以 使 用 如 下 公式 进行 描述 : 
ee RM 
即 结果 可 以 由 输入 值 和 对 应 的 权重 和 求 得 。 从 计算 上 看 , 虽然 这 可 以 解决 输入 的 问题 , 得 


到 计算 结果 并 生成 拟 合 曲 线 ， 但 是 相对 而 言 计算 过 程 较为 复杂 ， 容 易 产生 错误 。 因 此 在 
TensorFlow 中 有 专门 用 于 解决 多 元 乘法 的 方法 ， 即 数据 的 矩阵 化 表示 ， 如 图 11-8 所 示 。 


wi1 
W2 
W3 

x | 





| + x1.2W2+..+xi.nWn | | x1.1 x1.2 xfn 
JJ x1.1.W1+ x12W2+...+xi.nWn (=) x2.1 x22 .x2.n 





Xx1.1.W1+ x12W2+ .+xi.n.Wn | xm.1 xm.2...xm.n 








图 11-8 和 矩阵 的 计算 方法 


与 大 多 数 Python 科学 计算 包 类 似 ，TensorFlow 包 提 供 的 矩阵 化 计算 包 可 以 完成 基本 的 矩 
阵 化 生成 与 运算 。 首 先是 矩阵 的 生成 使 用 如 下 代码 : 


matrixl 和 matrix2 分 别 是 生成 了 2 个 矩阵 常量 ， 在 这 里 稍 有 不 同 的 是 ，matrixl 生成 的 是 
一 个 〈1，2) 大 小 的 矩阵 ， 而 matrix2 是 一 个 (2，1) 大 小 的 矩阵 。 完 成 程序 如 下 : 


【程序 11-6】 
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需要 注意 的 是 ， 生 成 的 这 2 个 常量 实际 上 是 TensorFlow 张 量 的 现实 结果 ， 如 果 需 要 打印 
出 具体 的 数值 ， 则 必须 在 图 中 进行 处 理 ， 打 印 结果 如 下 所 示 ; 





可 以 看 到 第 一 行 打印 出 的 是 matrix1 的 张 量 信息 ， 这 里 显示 了 matrixl 是 一 个 (1，2) 大 
小 的 张 量 ， 第 二 行 是 matrix1 的 值 ， 为 [[3.3]] 的 和 矩阵。 第 三 行 是 matrix2 的 矩阵 张 量 信息 ， 其 中 
包含 一 个 值 为 [3,3] 的 2,1》 大 小 的 算 阵 。 

而 对 于 这 两 个 矩阵 可 以 使 用 TensorFlow 框架 中 既定 的 矩阵 运算 进行 计算 。 在 TensorFlow 
及 本 书后 续 内 容 的 学 习 中 将 主要 用 到 矩阵 的 相 乘 与 相 加 和 运算。 首先 对 于 两 个 矩阵 相 加 ， 代 码 如 下 : 


【程序 11-7】 





这 里 可 以 看 到 ， 这 里 是 2 个 矩阵 相 加 的 结果 ， 如 下 所 示 : 


而 对 于 矩阵 的 乘法 ， 固 有 的 乘法 分 为 两 种 ， 分 别 是 点 乘法 和 内 积 乘 法 。TensorFlow 中 同 
样 分 成 这 两 种 ， 采 用 不 同 的 函数 进行 处 理 。 





给 mul 和 fmatmul 是 TensorFlow 中 拖 阵 乘 法 和 矩阵 内 积 乘法 的 函数 。 需 要 说 明 的 是 ， 这 
2 种 乘法 法 则 是 不 尽 相同 的 。 

不 mul 中 的 乘法 要 求 进行 乘法 运算 的 矩阵 在 shape 上 是 完全 一 样 ， 而 内 积 乘法 tfmatmul 
不 要 求 那么 多 ， 而 是 要 求 第 一 个 矩阵 的 列 向 量 数 和 第 二 个 矩阵 的 行 向 量 数 相同 。 


【程序 11-8】 
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从 上 可 以 看 到 ,matrixl 与 matrix2 分 别 为 丛生 成 具有 相同 shape 大 小 的 矩阵 ， 使 用 一 般 乘 


积 的 方法 计算 结果 如 下 : 
[和 
(23) 1 -GY 
其 中 的 带 有 一 个 圆圈 的 乘法 符号 在 数学 中 是 乘积 的 意思 , 即 进行 一 一 对 应 的 相 乘 , 最终 打 


印 结果 : 


而 使 用 内 积 乘法 进行 计算 的 矩阵 ， 其 形式 为 : 


ee ale 
【程序 11-9】 


最 终 打 印 结果 如 下 所 示 : 











还 有 一 种 随机 生成 矩阵 的 方式 ， 这 里 的 随机 生成 主要 用 到 2 种 方法 : tf.truncated_normal 
函数 和 从 random_normal 函数 。 


@ ”人 truncated_normal: 从 截断 的 正 态 分 布 中 输出 随机 值 。 生成 的 值 服从 具有 指定 平均 值 和 
标准 偏差 的 正 态 分 布 ， 如 果 生 成 的 值 大 于 平均 值 2 个 标准 偏差 的 值 则 丢弃 重新 选择 。 
@ tfrandom normal: 从 正 态 分 布 中 输出 随机 值 。 


其 参数 功能 方法 如 下 : 
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shape: 一 维 的 张 量 ， 也 是 输出 的 张 量 。 

mean: 正 态 分 布 的 均值 。 

stddev: 正 态 分 布 的 标准 差 。 

dtype: 输出 的 类 型 。 

seed: 一 个 整数 ， 当 设置 之 后 ， 每 次 生成 的 随机 数 都 一 样 。 
name: 操作 的 名 字 。 


具体 使 用 : 
主 。 Variable (tf.random normal(i2,2j,seed) 


除 此 之 外 TensorFlow 中 还 有 其 他 相关 的 矩阵 计算 函数 ， 在 后 文 遇 到 时 会 一 一 介绍 。 
而 对 于 变量 ， 和 矩阵 的 初始 化 一 般 采 用 如 下 形式 : 





这 里 廿 矩阵 在 初始 化 时 就 创建 了 2 个 变量 矩阵 ， 因 为 变量 矩阵 在 TensorFlow 图 运行 的 过 
程 中 其 值 在 不 停 地 改变 ， 因 此 可 以 根据 需要 将 其 赋值 为 1 或 者 0。 


【程序 11-10】 





需要 注意 的 是 ， 由 于 此 时 matrixl 和 matrix2 被 设置 成 变量 ， 因 此 在 调用 之 前 需要 对 其 初 
始 化 防止 以 前 运算 的 残留 对 其 产生 影响 。 

TensorFlow 中 比较 重要 的 参数 ， 除 了 Constant 以 及 variable 之 外 ， 还 有 placehoder， 其 使 
用 方式 如 下 : 


这 里 括号 内 第 一 个 参数 为 数据 类 型 ， 而 第 二 个 参数 为 矩阵 的 大 小 。 使 用 代码 如 下 : 
【程序 11-11】 
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蝇 还 有 其 他 部 分 请 读者 自行 测试 完成 。 


现在 使 用 矩阵 方法 对 其 进行 修正 ， 有 具体 程序 见 程序 11-12。 


【程序 11-12】 
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Wy 2 


其 中 x_data 和 y_data 分 别 是 输入 和 生成 的 数据 矩阵 ，x_data_ 与 y_data 是 专门 的 占 位 符 ， 
用 于 接受 输入 的 数据 值 ，weights_ 是 函数 变量 ， 主 要 是 在 后 续 的 模型 中 更 新 。 而 模型 的 设计 采 
用 多 元 函数 计算 的 方式 进行 。 

最 后 打印 结果 如 下 : 





可 能 读者 会 注意 到 , 在 程序 11-12 中 , 笔者 在 模型 设计 和 数据 输入 时 采用 的 是 逐个 输入 的 
方式 , 因此 可 以 把 程序 11-12 所 采用 的 梯度 计算 方式 视 为 随机 梯度 下 降 方式 。 回 想 在 前 面 内 容 
中 的 介绍 , 对 于 某 些 数量 不 多 的 数据 , 为 了 节省 时 间 可 以 采用 批量 梯度 下 降 的 方式 。 程 序 11-13 
演示 了 采用 批量 梯度 下 降 方式 进行 计算 的 方法 。 


【程序 11-13】 
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观察 程序 11-13 可 以 看 到 ， 在 这 里 模型 的 设计 被 设计 成 直接 由 x_data 与 变量 weights 相 乘 
的 结果 , 损失 函数 也 直接 计算 2 个 矩阵 的 差 值 。 因 此 在 这 里 每 次 计算 时 都 直接 做 矩阵 的 差 值 计 
算 。 而 至 于 在 输入 数据 时 将 整个 x_data 作为 整体 输入 到 模型 中 ， 一 次 性 计算 所 有 的 模型 值 并 
对 权重 进行 梯度 计算 。 具 体 结果 请 读者 自行 打印 完成 。 











还 有 一 种 方法 叫做 mini_batch 梯度 下 降 法 ， 即 选择 一 个 规模 较 小 的 数据 集 进行 梯度 下 降 计 
人” 算 ， 这 里 请 读者 自行 完成 














实际 上 矩阵 化 数据 计算 和 模型 建立 是 一 种 最 为 常见 和 广泛 的 模型 建立 方式 ,更 多 的 应 用 在 
模块 化 和 框架 设计 中 ， 上 文 的 houses 和 features 就 是 定义 了 房屋 数量 和 特征 值 , 这 也 是 设计 模 
式 的 一 种 特殊 类 型 , 即 通 过 特定 的 参数 来 释放 需要 的 数值 , 这 种 方式 在 后 文 介绍 卷 积 神经 网 络 
的 内 容 时 会 更 多 地 遇 到 。 


下. 二 ”逻辑 回归 详解 


逻辑 回归 和 线性 回归 类 似 ,但 它 不 属于 回归 分 析 家 族 的 一 个 成 员 , 主要 区 别 在 于 变量 不 同 
因此 其 解法 和 生成 曲线 也 不 尽 相同 。 

逻辑 回归 是 目前 数据 挖 据 和 机 器 学 习 领域 中 使 用 较为 广泛 的 一 种 对 数据 进行 处 理 的 算法 ， 
一 般 用 于 对 某 些 数据 或 事物 的 归属 及 可 能 性 进行 评估 。 目前 较为 广泛 地 应 用 在 流行 病 学 中 , 比 
较 常用 的 情形 是 探索 某 疾病 的 危险 因素 ， 根 据 危 险 因素 预测 某 疾病 发 生 的 概率 等 。 

例如 , 想 探讨 胃癌 发 生 的 危险 因素 , 可 以 选择 两 组 人 群 , 一 组 是 胃癌 组 , 一 组 是 非 胃 癌 组 ， 
两 组 人 群 表 定 有 不 同 的 体征 和 生活 方式 等 。 这 里 的 因 变量 就 是 是 否 胃 癌 ， 即 “是 ”或 “ 否 ”， 
为 两 分 类 变量 ， 自 变量 就 可 以 包括 很 多 了 ， 例 如 年 龄 、 性 别 、 饮 食 习 惯 、 幽 门 螺杆 菌 感染 等 。 
自 变量 既 可 以 是 连续 的 ， 也 可 以 是 分 类 的 。 

MLlib 中 将 逻辑 回归 归 类 在 分 类 算法 中 ,也 是 无 监督 学 习 的 一 个 重要 算法 ， 本 节 将 主要 介 
绍 其 基本 理论 和 算法 示例 。 


11.3.1 逻辑 回归 不 是 回归 算法 
“逻辑 回归 并 不 是 回归 算法 ， 而 是 分 类 算法 。 逻 辑 回 归并 不 是 回归 算法 ， 而 是 分 类 算法 。 
逻辑 回归 并 不 是 回归 算法 , 而 是 分 类 算法 。” 重 要 的 事情 说 三 遍 。 具体 区 别 与 相似 性 如 下 详 述 。 

区 别 : 

@ ”结果 (y) : 对 于 线性 回归 ,结果 是 一 个 标量 值 (可 以 是 任意 一 个 符合 实际 的 数值 ) ， 
例如 100, 1.5 等 ; 对 于 还 辑 回 归 , 结果 是 一 个 整数 (表示 不 同类 的 整数 ,是 离散 的 ) ， 
例如 0,1,2,…9。 

@ ”特征 (x) : 对 于 线性 回归 ， 特 征 都 表示 为 一 个 列 向 量 ; 特别 是 对 于 涉及 二 维 图 像 的 
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逻辑 回归 ,特征 是 一 个 二 维 短 阵 ,敌阵 的 每 个 元 素 表示 图 像 的 像素 值 ， 每 个 像素 值 是 
属于 0 到 255 之 间 的 整数 ， 其 中 0 表示 黑色 ，255 表示 和 白色， 其 他 值 表示 具有 菜 
些 灰 度 阴 影 。 

@ ”损失 函数 : 对 于 线性 回归 , 损失 函数 是 表示 每 个 预测 值 与 其 预期 结果 之 间 的 聚合 差异 
的 函数 ; 对 于 逻辑 回归 ， 是 计算 每 次 预测 的 正确 或 错误 的 结果 比较 。 


相似 性 : 


@ ”训练 : 线性 回归 和 逻辑 回归 的 训练 目标 都 是 去 学 习 权 重 ( 刺 ) 和 偏 置 (4b ) 值 。 
@ ”结果 :线性 回归 与 逻辑 回归 的 目标 都 是 利用 学 习 到 的 权重 和 偏 置 值 去 预测 或 者 说 对 结 
果 进 行 分 类 。 

再 一 次 提 到 , 逻辑 回归 并 不 是 回归 算法 , 而 是 用 来 分 类 的 一 种 算法 , 特别 是 用 在 二 分 类 中 。 

在 上 一 节 中 , 笔者 向 读者 演示 了 使 用 线性 回归 对 某 个 具体 数据 进行 预测 的 方法 , 虽然 可 以 
看 到 , 在 二 元 或 者 多 元 的 线性 回归 计算 中 ,最 终结 果 与 实际 相差 较 大 , 但 是 其 能 够 返回 一 个 具 
体 的 预测 数据 。 

但 是 现实 生活 中 ， 某 些 问 题 的 研究 却 没有 正确 的 答案 。 

在 前 面 讨论 的 胃癌 例子 中 ,尽管 收集 到 了 各 种 变量 因素 , 但 是 在 胃癌 被 确诊 定性 之 前 , 任 
何人 都 无 法 对 某 人 是 否 将 来 会 诊断 出 胃癌 做 出 断言 ， 而 只 能 说 “有 可 能 ” 患 有 胃癌 。 这 个 就 是 
逻辑 回归 ， 他 不 会 直接 告诉 你 结果 的 具体 数据 而 会 告诉 你 可 能 性 是 在 哪里 。 


11.3.2 ”常用 的 逻辑 回归 特征 变化 与 结果 转换 

对 于 逻辑 回归 的 计算 过 程 ， 由 现行 回归 计算 方式 转变 为 逻辑 回归 计算 方式 , 其 在 过 程 、 步 
又 以 及 特征 提取 和 最 终结 果 的 显示 方面 都 是 有 所 不 同 的 。 

1. 特征 变换 

首先 对 于 特征 变换 来 说 ,在 上 一 节 介 绍 线性 回归 对 特征 数据 的 准备 时 介绍 了 对 于 一 般 的 特 
征 数据 可 以 将 其 设计 成 矩阵 的 形式 来 表示 , 而 常用 的 矩阵 规模 就 是 二 维和 矩阵。 而 在 做 逻辑 回归 
时 一 般 将 其 二 维特 征 转化 为 一 维特 征 进行 处 理 , 即将 第 一 行 以 外 的 行 数 依次 放 在 第 一 行 后 面 进 
行 处 理 ， 如 图 11-9 所 示 。 
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11-9 和 拢 阵 计算 的 二 维 到 一 维 化 变换 
而 这 种 方式 特别 适用 于 逻辑 回归 模型 训练 ， 使 用 代码 如 下 : 
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2. 结果 转换 

其 次 对 于 生成 结果 的 转换 ， 对 于 线性 回归 来 说 ， 生 成 的 结果 可 能 是 [0.1,100] 之 间 任 何 一 个 
数值 ， 即 其 本 身 是 一 个 连续 的 曲线 , 通过 确定 特征 值 可 以 很 好 地 在 曲线 上 找到 对 应 的 值 。 而 多 
辑 回 归 对 于 特定 值 的 计算 较为 困难 , 因为 其 并 不 是 一 条 光滑 的 连续 曲线 而 是 一 条 一 系列 离散 的 
数值 。 

为 了 解决 生成 值 不 是 连续 的 问题 , 逻辑 回归 的 结果 被 转化 成 了 单独 的 向 量 , 即 最 终结 果 只 
存在 一 个 单独 的 列 或 者 行 , 这 里 的 列 或 者 行 中 的 元 素 代 表 逻 辑 回 归 应 属于 的 特定 分 类 。 而 至 于 
如 何 确定 这 个 分 类 却 是 由 所 计算 出 属于 特定 元 素 的 积分 确定 。 

从 图 11-10 可 以 看 到 ， 每 一 个 数据 元 素 都 对 应 着 一 个 概率 ， 其 概率 有 大 小 之 分 。 对 于 概率 
得 分 最 高 的 元 素 则 认定 为 其 分 类 结果 。 

[13 33 2 1.2 3.2 053 922 1] 
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图 11-10 不 同 结果 的 概率 大 小 


11.3.3 ”逻辑 回归 的 损失 函数 


关于 损失 函数 的 定义 , 在 线性 回归 中 , 损失 函数 是 计算 模型 值 与 真实 值 之 间 的 差 平方 的 方 
式 完成 , 使 用 的 是 最 小 二 乘法 。 这 样 做 的 好 处 是 在 连续 的 曲线 上 , 任何 一 个 模型 计算 值 都 可 以 
求 得 一 个 与 真实 值 之 间 的 实际 差距 ,通过 要 求 差 距 的 最 小 化 使 得 模型 曲线 能 够 最 好 地 拟 合 真实 
曲线 。 

在 上 一 小 节 的 最 后 结果 说 明 中 已 经 明确 地 告诉 读者 ,对 于 逻辑 回归 来 说 , 找到 一 条 连续 的 
光滑 曲线 作为 结果 是 不 可 行 的 。 数 据 的 结果 是 离散 的 而 非 连续 型 变量 。 

遵照 上 一 节 中 所 采用 的 方法 ， 在 更 多 的 实际 应 用 中 ， 这 里 所 采用 的 是 one-hot 方法， 即将 
不 同 的 类 型 转化 成 相同 维 数 的 向 量 , 但 是 在 不 同 的 维度 中 将 实际 类 型 的 元 素 设置 成 1， 其 他 元 
素 为 0。 

例如 [0,1,2,3,4,5,6,7,8,9] 这 一 系列 数据 被 转化 为 如 图 11-11 所 示 的 数据 。 
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ooooeoeoeecec~ 
口 口 口 口 口 口 口 口 一 口 
口 口 口 口 口 口 口 一 口 口 
一 口 口 口 口 口 口 口 口 口 


图 11-11 ”one-hot 表示 的 数据 
假设 根据 图 11-11 对 数据 进行 预测 ， 则 生成 的 结果 如 图 11-12 所 示 。 


人 
1 


0.1 





下 
图 11-12 ”one-hot 中 数据 概率 的 分 布 


可 以 看 到 ， 每 个 不 同 的 值 都 对 应 一 个 计算 出 的 概率 大 小 ， 图 中 数值 1 所 对 应 的 概率 最 大 ， 
因此 可 以 将 此 次 模型 计算 结果 变 为 1。 

模型 的 计算 最 终 还 是 要 通过 数学 公式 和 编程 的 方式 实现 , 而 前 面 已 经 说 了 , 通过 传统 的 最 
小 二 乘法 无 法 计算 离散 情况 下 数据 的 分 布 结果 。 因 此 为 了 解决 这 个 问题 , 对 于 逻辑 回归 的 损失 
函数 求解 ， 引 入 了 交叉 炳 的 办 法 对 其 进行 计算 。 

交叉 炉 的 计算 公式 如 下 : 





f= -iFtyinatd- yin(- a)] 
n ¥ 


对 公式 中 参数 进行 解释 ，y 为 真实 的 输出 值 ， 而 a 为 模型 求 得 的 模型 值 。 
而 对 于 回归 分 析 中 的 激活 函数 ， 在 线性 分 析 中 使 用 的 是 sigmoid 函数 ， 而 在 逻辑 回归 中 使 
用 的 是 softmax 函数 : 


ba 
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er 


= 
即 元 素 所 在 队列 中 元 素 与 所 有 元 素 指数 和 的 比值 , 而 采用 softmax 的 好 处 在 于 计算 较为 简 


单 ， 这 点 在 前 面 介绍 反馈 算法 时 就 已 经 有 介绍 ， 这 里 就 不 再 做 详细 讲解 。 
最 终 是 逻辑 回归 的 损失 函数 的 定义 : 


Loss = -YY log(soft max(y,)) 


5 





在 这 个 损失 函数 中 了 是 真实 结果 转化 为 one-hot 的 向 量 结果 ， 而 log (soft max (y,)) 是 
模型 计算 值 经 过 softmax 和 log 计算 而 来 的 模型 输出 值 ， 最 终 取 其 数据 和 作为 损失 函数 。 


11.3.4 ”逻辑 回归 编程 实战 一 一 胃癌 的 转移 判断 


某 研究 人 员 在 探讨 肾 细胞 癌 转 移 的 有 关 临 床 病理 因素 研究 中 ,收集 了 一 批 行 根治 性 肾 切 除 
术 患 者 的 肾 癌 标本 资料 , 现 从 中 抽取 26 例 资料 作为 示例 进行 logistic 回归 分 析 ( 本 例 来 自 《 卫 
生 统 计 学 》 第 四 版 第 11 章 ) 。 

数据 说 明 : 


@@ y: 肾 细胞 癌 转 移 情况 (有 转移 y=1; 无 转移 y=0) 。 

x1: 确诊 时 患者 的 年 龄 ( 岁 ) 。 

Xx2: 肾 细胞 癌 血 管内 皮 生 长 因子 (VEGF ) ， 其 阳性 表述 由 低 到 高 共 3 个 等 级 。 
x3: 肾 细胞 癌 组 织 内 微血管 数 (MVC ) 。 

x4: 肾 癌 细 胞 核 组 织 学 分 级 ， 由 低 到 高 共 4 级 。 

x5: 肾 细 胞 癌 分 期 ， 由 低 到 高 共 4 期 。 
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将 建立 一 个 名 为 cancer.txt 的 文件 夹 作为 数据 源 。 根 据 前 期 分 析 ， 对 胃癌 数据 训练 逻辑 回 
归 模 型 。 在 计算 患者 的 扩散 概率 之 前 ， 可 以 使 用 统计 类 进行 数据 分 析 。 

首先 第 一 步 是 对 数据 的 读 取 ， 在 前 面 章 节 中 介绍 了 将 数据 生成 TFRecorder 的 方法 ， 那 种 
方法 主要 应 用 在 图 像 处 理 领 域 , 可 以 将 图 像 信息 转化 为 二 进 制 进行 存储 。 而 本 例 中 数据 是 以 数 
值 的 形式 存在 ， 因 此 读 取 的 时 候 可 以 直接 读 取 而 无 须 经 过 类 型 转换 这 一 中 间 步 又 。 

在 给 出 的 数据 中 ,每 一 行 代表 一 个 单独 的 数据 例子 , 每 一 行 由 7 个 浮 点 数 构成 , 前 2 个 是 
label 经 过 one-hot 编码 后 实现 的 数字 ，[0,0] 或 者 [0,1]， 而 后 面 5 个 是 特征 值 。 








代码 段 中 首选 使 用 了 tftrain.string input _producer 函数 将 数据 文件 读 取 到 内 存 中 ， 之 后 使 
用 TextLineReader 文件 获得 文件 读 取 的 第 一 行 句柄 ， 而 reader 里 面 的 read 方法 返回 了 文件 头 
和 文件 名 。 
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record_defaults 方法 代表 数据 解析 的 模板 ， 在 数据 中 是 默认 使 用 逗号 “，” 将 不 同 的 列 向 
量 分 开 。 在 这 里 输入 的 数据 为 浮 点 型 ， 因 此 模板 为 [1.0]， 即 每 一 列 的 数字 都 被 解析 成 浮 点 型 ， 
而 整形 用 [1] 来 表示 ， 而 string 类 型 使 用 [“null"] 来 进行 解析 。 

coll 到 col7 代表 每 一 行 的 数据 列 向 量 ， 前 面 已 经 说 了 。 第 一 和 第 二 列 分 别 是 one-hot 使 用 
的 值 代表 计算 结果 ， 因 此 label 就 是 one-hot 的 表示 ， 这 里 只 有 2 位 ， 使 用 coll 和 col2 即 可 。 
features 是 剩余 的 5 个 数据 ， 代 表 5 个 特征 值 ， 这 里 被 打包 在 features 中 。 

至 于 将 数据 读 取出 来 可 以 使 用 如 下 代码 段 : 





这 里 需要 注意 的 是 ， 数 据 的 读 取 必须 要 启动 数据 读 取 协 调 器 ， 即 tftrain.Coordinator 函数 
创建 的 coord， 而 在 start_queue_runners 必须 要 对 其 进行 启动 ， 此 时 文件 数据 以 及 被 输入 队列 。 
最 终 打印 结果 如 下 所 示 : 





此 时 可 以 看 到 ， 数 据 3 个 一 组 ， 这 是 在 tf.train.shuffle_batch 函数 中 定 的 ， 每 个 batch_size 
的 大 小 为 3， 读 者 可 以 自行 调节 查看 。 


【程序 11-14】 
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程序 11-14 展示 了 使 用 数据 进行 模型 训练 的 过 程 ,损失 函数 使 用 的 是 前 面 所 介绍 的 交叉 焕 
函数 ， 而 训练 依旧 是 传统 的 梯度 下 降 方式 。 创 建 了 一 个 flag 用 于 对 损失 函数 进行 阔 值 的 限定 ， 
当 损 失 函 数 小 于 一 个 阔 值 时 使 得 模型 能 够 停止 训练 。 同 样 在 数据 的 输入 时 采用 的 是 队列 的 形式 
对 数据 进行 输入 ， 在 输入 正式 开始 之 前 需要 先 打 开 队列 。 

最 后 结果 请 读者 自行 验证 完成 。 


11 .4 本 章 小 结 


本 章 中 对 使 用 TensorFlow 进行 回归 分 析 做 了 一 个 全 面 的 介绍 ， 主 要 介绍 了 线性 回归 和 逻 
辑 回 归 。 

线性 回归 是 最 简单 也 是 最 为 基础 的 一 种 回归 分 析 模 式 ， 它 也 是 TensorFlow 用 于 入 门 的 程 
序 设计 算法 , 笔者 完整 演示 了 程序 设计 的 步骤 , 通过 一 个 个 问题 展示 了 在 程序 编写 时 可 能 出 现 
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的 各 种 情况 ， 并 一 一 予以 解决 。 在 线性 回归 的 分 析 中 将 传统 的 逐步 计算 方式 转化 为 矩阵 计算 ， 
这 样 做 的 好 处 是 通过 TensorFlow 中 带 有 的 矩阵 处 理 包 可 以 最 大 便捷 地 对 数据 进行 计算 。 

逻辑 回归 不 是 回归 算法 ， 而 是 分 类 算法 。 在 介绍 逻辑 回归 的 时 候 引 入 了 交叉 炉 和 softmax 
函数 的 定义 。 这 是 两 个 非常 重要 的 构建 损失 函数 的 基础 算法 ， 其 重要 性 不 亚 于 sigmoid 在 反馈 
神经 网 络 中 的 作用 ， 我 们 在 之 后 的 章节 中 还 会 继续 对 其 进行 讲解 和 分 析 ， 并 引入 其 相关 变种 。 

本 章 通 过 胃癌 分 类 的 实战 演示 了 如 何 引 入 数据 库 文件 ， 如 何 通过 代码 编写 对 模型 进行 训 
练 ， 结 果 也 被 分 成 两 类 。 这 只 是 一 个 开始 ， 下 一 章 将 会 引入 一 个 非常 重要 的 例子 ， 即 MNIST 
手写 输入 的 识别 ， 将 通过 这 个 完整 例子 介绍 更 多 使 用 深度 学 习 进 行 分 类 学 习 的 细节 。 
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本 章 开始 将 进入 本 书 的 后 半 部 分 ， 即 TensorFlow 中 使 用 MNIST 手写 体 的 识别 。MNIST 
是 一 个 常用 的 手写 体 识别 数据 库 ， 我 们 可 以 通过 训练 一 个 自己 的 模型 去 辨别 这 个 手写 数据 库 ， 
据 此 笔者 将 介绍 一 种 在 图 像 识别 中 应 用 最 为 广泛 的 深度 学 习 网 络 一 一 卷 积 神经 网 络 。 

本 章 将 复习 一 下 逻辑 回归 分 类 算法 的 编写 , 之 后 再 着 重 介 绍 相 关 细 节 的 调整 ,并 分 析 这 些 
细节 调整 对 整体 模型 训练 产生 的 影响 。 






MNIST 数据 集 


“HelloWorld” 是 任何 一 个 程序 入 门 的 基础 程序 ， 任 何 一 位 读者 在 真正 开始 入 门 学 习 时 ， 
打印 的 第 一 句 话 往往 就 是 这 个 “HelloWorld”。 前 面 章节 中 笔者 也 带领 读者 学 习 和 掌握 了 
TensorFlow 打印 出 的 第 一 个 程序 “HelloWorld”。 

在 深度 学 习 中 也 有 其 特有 的 “HelloWorld”， 即 MNIST 手写 体 的 识别 。 相 对 于 上 一 章 单 
纯 地 从 数据 文件 中 读 取 并 加 以 训练 的 模型 ，MNIST 是 一 个 图 片 数 据 集 ， 它 的 分 类 更 多 ， 难 度 


也 更 大 。 


12.1.1 MNIST 是 什么 


对 于 好 奇 的 读者 来 说 ， 一 定 有 一 个 疑问 ，MNIST 究竟 是 什么 ? 
实际 上 MNIST 是 一 个 手写 数字 数据 库 , 它 有 60000 个 训练 样本 集 和 10000 个 测试 样本 集 。 
打开 数据 库 查 看 ，MNIST 数据 集 就 是 下 面 图 12-1 所 示 那 样 。 
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图 12-1 MNIST 文件 手写 体 


它 是 NIST 数据 库 的 一 个 子 集 。MNIST 数据 库 官方 网 址 为 : 
http://yann.lecun.com/exdb/mnist/ 


也 可 以 在 Wn 下 直接 下 载 ， 文件 包含 train-images-idx3-ubyte.gz 、 
train-labels-idx1-ubyte.gz 等 ， 如 图 12-2 所 示 。 


Four files are available on this site: 


training set images (9912422 bytes) 
training set labels (28881 bytes) 
test set images (1648877 bytes) 
test set labels (4542 bytes) 





图 12-2 MNIST 文件 中 包含 的 数据 集 
下 载 4 个 文件 ， 解 压缩 。 解 压缩 后 发 现 这 些 文件 并 不 是 标准 的 图 像 格 式 ， 也 就 是 一 个 训练 
图 片 集 ， 一 个 训练 标签 集 ， 一 个 测试 图 片 集 ， 一 个 测试 标签 集 。 我 们 可 以 看 出 这 些 其 实 并 不 是 
普通 的 文本 文件 或 是 图 片 文件 ， 而 是 一 个 压缩 文件 ， 下 载 并 解压 出 来 ， 我 们 看 到 的 是 二 进 制 文 
件 ， 其 中 训练 图 片 集 的 内 容 部 分 如 图 12-3 所 示 。 





图 12-3 MNIST 文件 的 二 进 制 表示 
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MNIST 训练 集 内 部 的 文件 结构 如 图 12-4 所 示 。 


TRAINING SET IMAGE FILE (trainrimages-idx3-ubyte) : 


[offset] [type] [value] [description] 
0000 32 bit integer 0x00000803 (2051) magic number 
0004 32 bit integer 60000 number of images 
0008 32 bit integer 28 number of rows 
0012 32 bit integer 28 number of colums 
0016 unsigned byte 22 pixel 

0017 unsigned byte 22 pixel 

xxx unsigned byte ?7 pixel 


12-4 MNIST 文件 结构 图 


图 12-4 是 训练 集 的 文件 结构 , 其 中 有 60000 个 实例 。 也 就 是 说 这 个 文件 里 面包 含 了 60000 
个 标签 内 容 ， 每 一 个 标签 的 值 为 0~9 之 间 的 一 个 数 。 这 里 笔者 先 解析 每 一 个 属性 的 含义 ， 首 
先 该 数据 是 以 二 进 制 存储 的 , 我们 读 取 的 时 候 要 以 “rb ”方式 读 取 ; 其 次 ,真正 的 数据 只 有 [value] 
这 一 项 ， 其 他 的 [type] 等 只 是 来 描述 的 ， 并 不 真正 在 数据 文件 里 面 。 也 就 是 说 ， 在 读 取 真实 数 
据 之 前 ， 要 读 取 4 个 32 bit integer。 由 [offset] 我 们 可 以 看 出 真正 的 pixel 是 从 0016 开始 的 ， 
个 int32 位 ,所 以 在 读 取 pixel 之 前 我 们 要 读 取 4 个 32 bit integer, 也 就 是 magic number、number 
of images、number of rows、number of columns。 

继续 对 图 片 进 行 分 析 ， 在 MNIST 图 片 集中 ， 所 有 的 图 片 都 是 28X28 的 ， 也 就 是 每 个 图 
片 都 有 28X28 个 像素 ; 看 图 12-4 中 train-images-idx3-ubyte 文件 中 偏 移 量 为 0 字 节 处 有 一 个 4 
字 节 的 数 为 0000 0803 表示 魔 数 ， 接 下 来 是 0000 ea60 值 为 60000 代表 容量 ， 接 下 来 从 第 8 个 
字 节 开始 有 一 个 4 字 节 数 ， 值 为 28 也 就 是 0000 001c， 表 示 每 个 图 片 的 行 数 ， 从 第 12 个 字 节 
开始 有 一 个 4 字 节 数 ， 值 也 为 28， 也 就 是 0000 001c 表示 每 个 图 片 的 列 数 ， 从 第 16 个 字 节 
始 才 是 我 们 的 像素 值 ， 如 图 12-5 所 示 。 
































图 12-5 每 个 手写 体 被 分 成 28X28 个 像素 


性 元 这 里 使 用 每 784 个 字 节 代表 一 由 图片 。 | 


12.1.2 ”MNIST 数据 集 的 特征 和 标签 


前 面 已 经 介绍 了 通过 一 个 简单 的 胃癌 识别 程序 去 检测 胃癌 的 几率 。 现在 笔者 加 大 难度 , 尝 
试 使 用 TensorFlow 去 预测 10 个 分 类 。 这 实际 上 难度 并 不 大 ， 如 果 读 者 已 经 掌握 上 一 章 的 二 分 
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类 的 程序 编写 的 话 ， 那 么 完成 预测 这 个 更 不 在 话 下 。 
首先 对 于 数据 库 的 获取 , 在 12.1.1 小 节 中 已 经 有 了 介绍 , 读者 可 以 从 给 出 的 网 址 下 载 并 按 
格式 存储 ， 如 图 12-6 所 示 。 


v MTensorflow D:\workspace\TensorflowIntoDoor 
™ BMNIST_data 
蕊 tl0k-images-idx3-ubyte.gz 
蕊 tl0k-labels-idx1-ubyte.gz 
蕊 train-images-idx3-ubyte.gz 
电 train-labels-idxl-ubyte.gz 


图 12-6 MNIST 数据 集 存储 路 径 


之 后 需要 做 的 工作 就 是 对 数据 的 输入 。 有 一 个 好 消息 就 是 ， 为 了 更 好 地 掌握 模型 的 设计 ， 
对 于 MNIST 数据 可 以 使 用 现成 的 input_data 函数 来 读 取 相 关 的 数据 集 。 






上 面 的 代码 段 中 input_data 函数 可 以 按 既定 的 格式 读 取 出 来 。 正 如 胃癌 数据 库 一 样 ， 每 个 
MNIST 实例 数据 单元 也 是 由 2 部 分 构成 , 一 张 包含 手写 数字 的 图 片 和 一 个 与 其 相对 应 的 标签 。 
如 同 TFRecorder 数据 一 样 ， 可 以 将 其 中 的 标签 特征 设置 成 “y”， 而 图 片 特征 和 矩阵 以 “x” 来 
代替 ， 所 有 的 训练 集 和 测试 集中 都 包含 x 和 y。 

图 12-7 用 更 为 一 般 化 的 形式 解释 了 MNIST 数据 实例 的 展开 形式 。 在 这 里 , 图 片 数据 被 展 
开 成 矩阵 的 形式 ， 和 矩阵 的 大 小 为 28X28 = 784。 至 于 如 何 处 理 这 个 矩阵， 一 般 常用 的 方法 是 将 
其 展开 ， 展 开 的 方式 和 顺序 并 不 重要 ， 只 需要 将 其 按 同样 的 方式 展开 即 可 。 





图 12-7 图 片 转换 为 向 量 模式 


但 是 对 于 图 片 信息 来 说 ,将 二 维 的 图 片 矩 阵 展开 成 一 维 的 向 量 数组 会 丢失 图 片 中 蕴含 的 二 
维 图 片 特征 , 而 有 些 特征 对 于 图 片 的 读 取 和 辨别 又 是 至 关 重 要 的 。 这 一 点 笔者 在 下 一 章 介 绍 卷 
积 神经 网 络 时 会 详细 说 明 。 

下 面 回 到 对 数据 的 读 取 ， 前 面 已 经 介绍 了 ，MNIST 数据 集 实际 上 就 是 一 个 包含 着 60000 
张 图 片 的 60000X784 大 小 的 矩阵 张 量 [60000,784]， 如 图 12-8 所 示 。 
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mnist.train.xs 


= 四 四 
784 


50000 
图 12-8 ”MNIST 数据 集 的 矩阵 表示 
和 矩阵 中 行 数 指 的 是 图 片 的 索引 , 用 以 对 图 片 进行 提取 ; 后 面 的 784 个 列 向 量 用 以 对 图 片 进 
行 特 征 标 注 。 实 际 上 ， 这 些 特征 向 量 就 是 图 片 中 的 像素 点 ,每 张 手 写 图 片 是 [28,28] 的 大 小 , 将 
每 个 像素 转化 为 0~1 之 间 的 一 个 浮 点 数 构成 的 矩阵 。 
如 同 在 上 一 章 的 例子 中 ， 每 个 实例 的 标签 对 应 于 0~9 之 间 的 任意 一 个 数字 ， 用 以 对 图 片 
进行 标注 。 同 样 对 于 本 章 将 使 用 的 逻辑 回归 模型 来 说 ， 标 签 标注 的 方式 为 “one-hot”， 即 每 
- 列 向 量 中 除了 一 位 数字 为 1 外 ， 其 他 都 是 0， 如 图 12-9 所 示 。 





0 1 和 9 
{1 "| a 
0 1 0 0 
0 0 1 0 
0 0 0 0 
0 0 0 | 0 
0 0 0 0 
0 0 0 0 
0 0 0 6 
0 0 0 0 
0J 0 0 1 


12-9 ”one-hot 数据 集 


因此 可 以 知道 ， 对 于 MNIST 数据 集 的 标签 来 说 ， 实 际 上 就 是 一 个 60000 张 图 片 的 60000 
X 10 大 小 的 矩阵 张 量 [60000,10]。 前 面 的 行 数 指 的 是 数据 集中 图 片 的 个 数 为 60000 个 ， 后 面 的 
10 指 10 个 列 向 量 。 


之 .2 MNIST 数据 集 实战 编程 


上 一 节 中 ， 笔 者 对 MNIST 数据 做 了 介绍 ， 描 述 了 其 构成 方式 以 及 其 中 数据 的 特征 和 标签 
的 记录 表示 等 。 了 解 这 些 有 助 于 编写 合适 的 程序 来 对 MNIST 数据 集 进行 分 析 和 识别 。 本 节 将 
一 步 步 地 分 析 和 编写 代码 对 数据 集 进行 处 理 ， 之 后 为 了 提高 准确 率 本 章 12.3 节 将 会 改变 一 些 
程序 设计 上 的 细节 ， 演 示 不 同 的 内 容 对 最 终结 果 的 影响 。 
12.2.1 softmax 激活 函数 

softmax 函数 在 前 面 已 经 做 过 介绍 , softmax 是 一 个 对 概率 进行 计算 的 模型 ,因为 在 真实 的 
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计算 模型 系统 中 ， 对 一 个 实物 的 判定 并 不 是 100%， 而 是 有 一 定 的 概率 ， 并 且 在 所 有 的 结果 标 
签 上 ， 都 可 以 求 出 一 个 概率 。 


Jo = Sw, +b 


而 


€ 
Sofi max = 一 





e7 
y=soft nat =softi max(w,x; +b) 
其 中 第 一 个 公式 是 人 为 定义 的 训练 模型 , 这 里 采用 的 是 输入 数据 与 权重 的 乘积 和 再 加 上 一 
个 偏 置 5b 的 方式 进行 。 偏 置 b 存 在 的 意义 是 为 了 加 上 一 定 的 噪音 。 
对 于 求 册 的 /69= 守 wwj+b， softmax 的 作用 就 是 将 其 转化 成 概率 。 换 句 话 说 ， 这 里 的 


softmax 可 以 被 看 作 是 一 个 激励 函数 ， 将 计算 的 模型 输出 转换 为 在 一 定 范围 内 的 数值 ， 并 且 在 
总 体 中 这 些 数值 的 和 为 1， 而 每 个 单独 的 数据 都 可 以 被 归 类 为 特定 的 数据 结果 集中 。 

用 更 为 正式 的 语言 表述 那 就 是 softmax 是 模型 函数 定义 的 一 种 形式 : 把 输入 值 当成 寡 指 数 
求 值 ， 再 正则 化 这 些 结果 值 。 而 这 个 寡 运 算 表 示 ,， 更 大 的 概率 计算 结果 对 应 更 大 的 假设 模型 里 
面 的 乘 数 权重 值 。 反 之 ， 拥 有 更 少 的 概率 计算 结果 , 意味 着 在 假设 模型 里 面 拥有 更 小 的 乘 数 系 
数 。 

而 假设 模型 里 的 权 值 不 可 以 是 0 值 或 者 负 值 。Softmax 会 正则 化 这 些 权重 值 ， 使 它们 的 总 
和 等 于 1， 以 此 构造 一 个 有 效 的 概率 分 布 。 

对 于 最 终 的 公式 y= soff max( 了 (Xx))= sofirmax(wx;+b) 来 说 ， 可 以 将 其 认为 如 图 
12-10 所 示 的 形式 。 























图 12-10 ”softmax 计算 形式 


图 12-10 演示 了 softmax 的 计算 公式 ， 这 实际 上 就 是 输入 的 数据 与 权重 的 乘积 之 后 对 其 进 
行 softmax 计算 得 到 的 结果 。 如 果 将 它 用 数学 方法 表示 出 来 ， 则 如 图 12-11 所 示 。 


全 7 wie wisl | bi 
两 | = softmax | |Wa Wa Wa3|. | 而 | + | 区 
ys Ww Wa WSS| | 殉 bs 


图 12-11 ”softmax 矩阵 表示 
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将 这 个 计算 过 程 用 矩阵 的 形式 表示 出 来 ， 即 矩阵 乘法 和 向 量 加 法 ， 这 样 有 利于 使 用 
TensorFlow 内 置 的 数学 公式 进行 计算 ， 极 大 地 提高 了 程序 效率 。 
12.2.2 ”MNIST 编程 实战 


本 小 节 将 正式 开始 MNIST 手写 识别 程序 的 编写 。 请 读者 回忆 下 上 一 章 的 内 容 ， 在 使 用 
TensorFlow 之 前 首先 要 导入 相关 的 文件 包 。 





1. 对 于 输入 的 数据 值 的 处 理 


在 前 面 通过 分 析 指 导 ， 实 际 上 MNIST 中 数据 是 由 784 个 列 向 量 构成 的 图 片 特征 ， 因 此 在 
进行 输入 的 时 候 可 以 使 用 如 下 代码 表示 : 





这 里 输入 的 x_data 是 一 个 占 位 符 ， 用 于 对 输入 的 数据 进行 处 理 。 括 号 内 的 参数 是 占 位 符 
的 参数 。tf.float32 指 的 是 占 位 符 接 受 型 号 为 foat32 的 数据 ， 而 后 面 的 向 量 对 于 输入 的 数据 格 
式 来 说 是 一 个 矩阵 输入 ， 要 求 列 的 数量 为 784， 使 用 “None” 表 示 的 是 第 一 个 行 向 量 的 数 可 以 
是 任何 一 个 数 ， 即 行 向 量 的 维度 是 任意 值 。 






一 使 用 None 做 的 好 处 是 对 于 普通 输入 ， 行 向 量 是 一 个 定 值 ; 而 对 于 批量 输入 时 ， 行 向 量 的 
| 数量 不 定 ， 使 用 None 可 以 在 这 之 间 做 任意 地 处 理 而 无 须 再 随 输入 数量 的 多 少 对 占 位 符 做 
出 调整 。 





2. 对 于 权重 和 偏 置 值 的 处 理 


常规 的 方法 是 使 用 变量 ， 即 Variable 进行 替代 。 使 用 变量 的 好 处 是 其 生成 的 是 一 个 
TensorFlow 框架 的 张 量 ， 在 图 运算 中 可 以 根据 需要 进行 修改 。 


3. 模型 的 建立 
在 前 面 已 经 介绍 了 ， 最 终 的 结果 公式 如 下 : 


y=sofimax( f(x))= softrmax(w,x,; +b) 
因此 对 于 本 例 中 的 模型 编写 可 以 仿照 下 面 公式 进行 : 
Yamodel = tf.nn.softmax(tf.matmul(ldata, weight) tbias) 


再 强调 一 点 的 是 ， 这 里 ttmatmul 是 TensorFlow 的 矩阵 乘法 ， 其 要 求 第 一 个 数 的 列 向 量 与 
第 二 个 乘 数 的 行 向 量 相同 。Softmax 则 是 上 文 分 析 的 概率 计算 函数 ， 可 以 对 输入 的 数据 进行 计 
算得 到 每 个 值 对 应 的 概率 。 


189 


TensorFlow 深度 学 习 应 用 实践 





4. 损失 函数 

对 于 损失 函数 ， 最 常用 的 是 最 小 二 乘法 ， 其 原理 易 懂 ， 公 式 简 单 ， 很 方便 理解 。 最 小 二 乘 
法 是 计算 模型 值 与 真实 值 之 间 的 差异 平方 和 ， 之 后 最 小 化 这 个 值 。 

为 了 计算 最 小 二 乘法 ， 首 先 要 使 用 一 个 新 的 占 位 符 在 程序 中 蔡 代 输 入 的 数据 值 : 


之 后 可 以 使 用 最 小 二 乘法 的 公式 : 


在 损失 函数 中 首先 使 用 最 小 二 乘法 计算 出 差 值 的 平方 , 之 后 reduce_mean 计算 出 张 量 的 所 
有 元 素平 均值 。 这 里 需要 注意 的 是 , 这 个 计算 主要 是 在 批量 输入 时 起 作用 , 计算 每 批 次 输入 的 
数据 计算 后 的 平均 差 值 ， 而 对 于 单个 元 素 ， 其 均值 就 是 其 本 身 。 

5. 训练 模型 

最 后 对 于 模型 的 训练 ， 在 前 面 的 介绍 中 已 经 对 每 一 个 步骤 有 了 详细 的 介绍 。 此 时 在 
TensorFlow 中 有 了 一 个 详细 计算 图 可 以 对 其 进行 描述 。TensorFlow 的 图 运算 可 以 自动 地 使 用 
前 面 介 绍 的 反 向 传播 算法 来 对 权重 进行 更 新 。 


train_step 是 训练 步骤 ， 在 这 里 使 用 梯度 下 降 算法 以 0.01 的 学 习 率 最 小 化 最 小 二 乘法 。 梯 
度 下 降 算法 在 前 面 已 经 有 过 介绍 ，TensorFlow 将 每 个 变量 一 点 点 地 向 损失 函数 值 最 低 的 方向 
移动 。 这 里 TensorFlow 在 后 台 做 的 处 理 就 是 实现 前 面 分 配 好 的 任务 ， 之 后 不 停 地 微调 权重 。 


6. 启动 模型 
最 后 就 是 模型 训练 的 启动 ， 对 于 模型 来 说 这 里 的 启动 没什么 特别 之 处 。 





在 这 个 步骤 中 ， 对 模型 进行 启动 ， 同 时 每 次 随机 抓 取 50 个 数据 点 批量 送 入 模型 中 开始 计 
算 。 如 果 将 数字 改 成 1， 则 可 以 认为 模型 在 进行 随机 梯度 下 降 算 法 ， 而 具体 每 次 数据 量 的 多 少 
需要 根据 模型 的 设计 、 资 源 的 配置 和 数据 量 的 大 小 而 定 。 这 些 数据 被 输入 到 模型 中 作为 参数 替 
换 占 位 符 进行 数据 的 计算 。 

7. 模型 的 评估 

最 后 一 步 是 对 模型 的 好 坏 进行 评估 ,在 这 里 需要 找 出 在 模型 训练 过 程 中 模型 计算 正确 的 结 
果 。TensorFlow 提供 了 从 argmax 函数 ， 它 能 给 出 计算 张 量 在 某 一 维度 上 最 大 值 的 索引 ， 即 通 
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过 比较 模型 标签 取得 最 大 值 的 位 置 和 真实 值 标签 最 大 值 (1) 的 位 置 ， 从 而 检测 模型 值 与 真实 
值 是 否 相互 匹配 ， 代 码 如 下 : 


不 equal 函数 返回 值 是 一 系列 的 布尔 值 : 


为 了 更 好 地 对 这 些 布尔 值 进行 描述 , 之 后 将 其 转化 成 浮 点 值 , 而 这 些 浮 点 值 可 以 将 其 转化 
成 数值 类 型 通过 求 取 平均 值 做 一 个 描述 。 代 码 如 下 : 


8. 最 核心 的 问题 一 一 模型 的 使 用 
在 这 里 可 能 有 读者 会 提出 疑问 ， 程 序 代 码 写 到 这 里 ， 那 么 真正 能 用 的 数据 在 哪里 。 
这 个 问题 很 好 ， 请 读者 回 到 本 小 节 的 第 3 条 。 在 其 中 设置 了 模型 的 程序 化 形式 : 


就 是 存储 了 所 训练 的 模型 和 其 中 的 参数 weight 和 bias， 它 的 用 法 是 可 用 feed-dict 函数 将 
数据 “ 喂 ” 进 去 从 而 获得 最 终 的 结果 。 


【程序 12-1】 
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通过 1000 次 的 循环 训练 可 以 看 到 ， 模 型 最 终 的 输出 结果 为 : 





这 个 是 每 隔 50 次 循环 就 打印 一 次 判别 数据 到 控制 台 上 。 实 际 上 来 说 ， 这 个 结果 并 不 是 很 
高 , 因为 在 这 里 只 使 用 了 一 个 简单 的 模型 并 且 激活 函数 和 损失 函数 的 处 理 也 不 是 很 到 位 。 在 下 
一 节 中 ， 会 对 这 个 模型 做 出 调整 ， 从 而 得 到 更 高 的 准确 率 。 


12.2.3 ”为 了 更 高 的 准确 率 

为 了 更 高 的 准确 率 , 这 是 每 一 个 使 用 神经 网 络 或 者 更 深 一 个 层次 使 用 机 器 学 习 的 人 想 要 做 
的 事 。 但 是 很 多 事情 并 不 是 说 说 话 或 者 喊 喊 口号 那么 简单 ,而 是 需要 付出 更 多 的 艰辛 和 更 多 的 
工作 。 

本 小 节 将 尝试 修改 上 文 那个 简单 的 程序 的 一 些 细节 ， 希 望 它 能 够 把 0.91 左右 的 准确 率 提 
高 到 0.93 左右 。 请 读者 看 到 这 里 不 要 觉得 这 个 提 法 太 小 题 大 做 ， 提 高 区 区 0.02 个 点 对 机 器 学 
习 来 说 已 经 是 很 大 的 进步 了 。 

1. 损失 函数 的 修正 

在 上 一 章 中 已 经 做 了 介绍 , 相对 于 使 用 最 小 二 乘法 , 采用 交叉 烂 的 公式 计算 逻辑 回归 中 的 
分 类 问题 是 更 为 合适 的 。 

y= -> y_data xlog(y_model) 

这 里 首先 使 用 log 计算 每 个 模型 值 的 对 数 , 之 后 把 数据 集 上 真实 的 值 与 模型 计算 值 的 对 数 

相 乘 。 最 后 根据 输入 数据 模型 的 所 有 张 量 的 元 素 总 和 求 其 所 有 和 值 。 


这 里 的 交叉 炉 不 仅仅 可 以 用 来 衡量 单一 的 一 对 预测 和 真实 值 ,也 是 所 有 输入 的 图 片 的 交叉 
箭 的 总 和 。 对 于 更 多 的 数据 点 的 预测 表现 比 单一 数据 点 的 表现 能 更 好 地 描述 我 们 的 模型 的 性 
能 。 


2. 激活 函数 的 修正 


其 实 对 于 需要 修改 的 地 方 是 激活 函数 ,在 程序 12-1 中 采用 的 激活 函数 是 softmax。 笔 者 在 
讲解 softmax 函数 的 时 候 也 详细 地 做 了 说 明 ， 而 这 只 是 所 有 的 激活 函数 中 的 一 种 ， 除 此 之 外 还 
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有 常用 的 Tanh、relu 和 Sigmoid 函数 。 这 里 先 不 讲解 这 些 激活 函数 的 意义 和 数学 公式 , 请 读者 
将 激活 函数 蔡 换 为 relu 试 试 。 


【程序 12-2】 





最 终结 果 请 读者 自行 打印 验证 。 


12.2.4 ”增加 更 多 的 深度 


通过 修改 激活 函数 和 损失 函数 ， 似 乎 可 以 将 准确 率 做 一 个 提升 。 但 是 读者 可 能 也 发 现 ， 剩 
下 的 能 修改 的 细节 也 似乎 没有 了 .回想 一 下 在 神经 网 络 学 习 过 程 中 , 数据 经 过 输入 层 到 隐藏 层 ， 
最 终 从 输出 层 输出 结果 。 输入 层 和 输出 层 是 不 可 变动 的 , 那么 如 果 增 加 其 中 的 隐藏 层 会 有 什么 
结果 ? 读者 可 以 研究 下 面 图 12-12。 
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图 12-12 增 大 了 隐藏 层 的 逻辑 回归 
此 时 如 果 将 1 个 隐藏 层 增 大 到 2 个 隐藏 层 ， 似 乎 可 以 提高 深度 学 习 的 效率 和 能 力 。 





为 了 达到 增加 一 个 隐藏 层 的 想法 ， 修 改 原 有 的 weight 和 bias 为 weightl 和 bias1， 对 于 模 
型 来 说 , 这 里 由 原本 的 直接 数据 计算 变 为 第 一 个 隐藏 层 的 权重 和 偏 置 , 同时 为 了 增加 一 个 新 的 
隐藏 层 添加 了 weight2 和 bias2。 

而 对 于 训练 模型 来 说 ， 每 一 个 隐藏 层 都 有 一 个 输出 值 ， 因 此 y_model 在 每 一 层 都 会 输出 ， 
而 上 只 有 在 最 后 一 层 ， 通 过 softmax 对 数据 重新 做 了 概率 计算 ， 提 取出 概率 最 大 的 那个 值 作为 输 
出 。 


【程序 12-3】 
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经 过 上 述 分 析 ， 这 里 读者 可 以 尝试 使 用 程序 12-3 进行 打印 。 


晴 员 。 强 玉 建 议 谈 者 运行 程序 12.3， 相 信 对 于 结果 一 定 有 一 个 非常 难忘 的 认识 ， 这 里 答案 则 在 


下 一 章 揭晓 。 





之. 了 初 识 卷 积 神经 网 络 


相信 读者 已 经 对 程序 12-3 做 了 运行 ， 对 结果 一 定 记忆 深刻 。 
SS 


数字 0.1035 是 笔者 在 使 用 多 层 逻 辑 回归 计算 时 产生 的 最 终 准 确 率 。 在 例子 中 手写 的 数字 
一 共有 10 种 ， 那 么 每 种 分 类 成 功 的 随机 概率 为 0%。 而 最 终 模型 的 计算 结果 为 0.1035， 这 相 
当 于 就 是 随机 对 数字 进行 分 类 而 获得 的 一 个 随机 结果 ， 这 显然 是 没有 任何 用 处 的 。 

分 析 其 结果 产生 的 原因 ， 对 于 程序 12-3 与 12-2 之 间 的 差距 ， 唯 一 的 不 同 就 是 增加 了 一 个 
隐藏 层 ， 而 让 结果 最 终 干 差 万 别 。 这 似乎 说 明了 ， 靠 增加 隐藏 层 这 一 个 方法 对 结果 提高 毫 无 用 
处 。 即 对 于 此 模型 来 说 ， 目 前 已 经 没有 别 的 方法 对 结果 做 出 改善 。 

既然 可 以 说 使 用 逻辑 回归 方法 对 模型 做 出 性 能 提高 的 努力 是 失败 的 ,那么 就 需要 寻找 一 种 
新 的 方法 对 数据 进行 计算 。 前 面 已 经 说 了 ， 对 于 一 些 处 理 方法 , 细节 是 有 很 多 种 可 以 选择 ， 而 
对 于 模型 来 说 ， 这 个 答案 也 是 相同 的 。 

本 小 节 将 通过 使 用 卷 积 神经 网 络 重 新 对 MNIST 数据 集 进行 验证 ， 通 过 对 模型 的 整体 重 构 
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来 了 解 卷 积 神经 网 络 这 一 图 像 识别 中 最 重要 的 算法 和 工具 。 但 是 本 节目 前 只 泛泛 地 讨论 卷 积 神 
经 网 络 的 使 用 , 而 对 其 具体 的 公式 原理 以 及 变种 不 做 过 多 的 探讨 , 这 些 内 容 非 常 重要 ,将 放 在 
后 续 的 章节 中 向 读者 做 详细 的 讲解 。 


12.3.1 ” 卷 积 神经 网 络 


对 于 MNIST 数据 集 来 说 ， 采 用 逻辑 回归 对 数据 进行 辨别 似乎 已 经 达到 极限 ， 无 法 通过 细 
枝 末 节 的 修补 对 其 准确 度 做 出 更 进一步 的 提高 ;而 通过 对 模型 的 修改 增加 其 中 的 隐藏 层 数目 ， 
从 例子 上 来 看 也 只 能 使 得 模型 的 计算 完全 失真 。 因 此 , 本 节 将 放弃 原 有 模型 而 采用 全 新 的 卷 积 
神经 网 络 对 数据 进行 处 理 。 

12-13 展示 了 一 个 最 简单 的 卷 积 神经 网 络 的 模型 。 对 于 任意 一 个 卷 积 网 络 来 说 ， 几 个 必 
不 可 少 的 部 分 为 : 





| 
fully connected layers 。” Nx binary classification 


12-13 ” 卷 积 神经 网 络 的 最 简单 模型 
@ 输入 层 : 用 以 对 数据 进行 输入 。 
@。 卷 积 层 : 使 用 给 定 的 核 函 数 对 输入 的 数据 进行 特征 提取 ,并 根据 核 函 数 的 数据 产生 车 
干 个 卷 积 特征 结果 。 
@。 池 化 层 : 用 以 对 数据 进行 降 维 ,减少 数据 的 特征 。 
@ ”全 连接 层 : 对 数据 已 有 的 特征 进行 重新 提取 并 输出 结果 。 


12.3.2” 卷 积 神经 网 络 的 程序 编写 


每 个 层 有 其 不 同 的 作用 , 而 所 谓 的 深度 学 习 也 仅仅 是 增加 这 些 层 的 分 类 和 神经 元 数目 。 采 
用 卷 积 神经 网 络 对 MNIST 数据 集 进行 分 类 的 程序 如 下 : 


【程序 12-4】 
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在 程序 中 首先 创建 了 一 个 卷 积 层 。 值 得 庆幸 的 是 ，TensorFlow 中 将 卷 积 层 已 经 实现 并 封 
装 完毕 ， 其 他 人 也 只 需要 调用 即 可 。 
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代码 段 中 首先 是 定义 了 卷 积 核 w_conv， 在 这 里 同样 使 用 的 是 tf 变量 作为 卷 积 核 的 承载 数 
据 类 型 。 其 中 的 4 个 参数 [5,5,1,32]， 前 两 个 参数 5/5 是 卷 积 核 的 大 小 ， 代 表 这 个 卷 积 核 是 一 个 
[5.5] 的 矩阵 所 构成 ， 而 第 3 个 参数 是 输入 的 数据 的 通道 ， 第 4 个 参数 即 输出 数据 的 通道 。 


莫 志 可 能 有 读者 不 了 解 通道 的 意思 ， 在 这 里 是 图 片 信息 对 所 包含 图 像 所 分 解 的 级 别 。 


池 化 层 代码 如 下 : 


在 这 里 ksize=[1, 2, 2, 1] 指 的 是 池 化 矩阵 的 大 小 ,即使 用 [2,2] 和 矩阵 , 而 第 3 个 参数 strides=[1， 
2, 2, 1] 指 的 是 池 化 层 在 每 一 维度 上 滑动 的 步 长 。 

通过 第 一 个 卷 积 层 和 池 化 层 ， 输 入 的 数据 被 转化 成 [None,14,14,32] 大 小 的 新 的 数据 集 ， 之 
后 再 通过 一 次 全 连接 层 对 数据 进行 重新 分 类 : 








而 计算 模型 也 在 此 第 一 次 实现 , 与 逻辑 回归 类 似 , 这 里 同样 使 用 的 是 输入 值 与 权重 相 乘 的 
方式 对 其 进行 处 理 ， 最 终 将 其 结果 设置 成 y model 的 值 。 

最 后 是 损失 函数 和 判别 函数 的 确定 。 损失 函 数 同样 使 用 的 是 交叉 炉 函 数 作 为 损失 函数 , 而 
判别 函数 使 用 的 是 对 onehot 进行 求 取 均 值 的 方式 计算 。 
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最 终 打 印 结果 如 下 : 


即 最 终 准确 率 可 以 达到 0.9317， 似 乎 可 以 满足 本 章 开 头 时 提出 的 将 准确 率 提升 到 93% 的 
目标 。 这 是 一 个 非常 好 的 成 绩 ， 但 是 有 没有 更 好 的 办 法 提升 整个 准确 率 ? 
12.3.3 多 层 卷 积 神经 网 络 的 程序 编写 


在 12.2.4 小 节 的 最 后 ， 笔 者 加 深 了 逻辑 回归 的 隐藏 层 ， 即 由 原来 的 一 个 隐藏 层 变 成 2 个 ， 
使 得 最 终结 果 完 全 消失 而 造成 模型 失败 。 那 么 如 果 在 卷 积 神经 网 络 中 同样 增加 其 隐藏 层 会 产生 
什么 结果 呢 ? 


【程序 12-5】 
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程序 12-5 与 12-4 类 似 ， 不 同 之 处 在 于 增加 了 一 个 卷 积 层 和 池 化 层 ， 将 第 一 次 池 化 的 结果 
作为 数据 输入 到 第 二 个 卷 积 层 和 池 化 层 中 , 最 终 从 模型 输出 。 可 以 看 到 经 过 大 概 950 次 左右 的 
训练 ， 数 据 的 准确 率 达 到 0.98 左右 ， 这 是 一 个 非常 好 的 成 绩 。 


step 960，training accuracy 0.98 
12 .4 本 章 小 结 


在 本 章 中 ， 笔 者 带 着 读者 编写 了 一 个 完整 的 逻辑 回归 程序 ， 对 MNIST 手写 的 数据 集 进行 
分 析 。 这 个 程序 演示 了 TensorFlow 对 数据 使 用 的 流程 。 在 单 层 逻辑 回归 中 可 以 看 到 ， 神 经 网 
络 较 好 地 完成 了 数据 计算 任务 ， 随 着 对 更 多 细节 的 修改 ， 也 能 略微 地 提高 结果 的 有 效 性 。 

卷 积 神经 网 络 是 修改 了 计算 模型 后 的 一 种 新 的 计算 模型 ,通过 使 用 单 层 或 者 多 层 卷 积 神经 
网 络 可 以 使 得 计算 的 准确 率 更 上 一 个 档次 .而 使 用 多 层 隐藏 层 或 者 神经 层 构 成 的 神经 网 络 就 称 
为 深度 学 习 。 

本 章 只 是 做 了 一 个 开头 介绍 , 读者 对 深度 学 习 会 有 了 一 个 最 基本 的 了 解 , 采用 的 例子 也 是 
经 典 的 卷 积 神经 网 络 。 但 是 本 章 只 是 使 用 卷 积 神经 网 络 做 了 训练 和 对 结果 进行 求解 , 对 卷 积 网 
络 的 使 用 原理 没有 介绍 。 下 一 章 笔者 将 深入 分 析 卷 积 神经 网 络 的 原理 及 公式 ， 并 且 对 
TensorFlow 中 卷 积 神经 网 络 框架 的 使 用 做 进一步 的 介绍 。 
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本 章 开始 将 进入 本 书 最 重要 的 部 分 ， 卷 积 神经 网 络 的 介绍 。 

卷 积 神经 网 络 是 从 信号 处 理 衍 生 过 来 的 一 种 对 数字 信号 处 理 的 方式 ,发 展 到 图 像 信号 处 理 
上 演变 成 一 种 专门 用 来 处 理 具有 和 窍 阵 特征 的 网 络 结构 处 理 方式 。 卷 积 神经 网 络 在 很 多 应 用 上 都 
有 独特 的 优势 ， 甚 至 可 以 说 是 无 可 比拟 的 ， 例 如 音频 的 处 理 和 图 像 处 理 。 

本 章 笔 者 将 会 介绍 什么 是 卷 积 神经 网 络 ， 会 谈 到 卷 积 实际 上 是 一 种 不 太 复杂 的 数学 运算 ， 
即 卷 积 是 一 种 特殊 的 线性 运算 形式 。 之 后 会 介绍 “ 池 化 ”这 一 概念 ， 它 是 卷 积 神经 网 络 中 必 不 
可 少 的 操作 。 还 有 为 了 消除 过 拟 合 , 会 介绍 drop-out 这 一 常用 的 方法 。 这 些 概念 是 为 了 让 卷 积 
神经 网 络 运 行 得 更 加 高 效 的 一 些 常用 方法 。 





卷 积 运算 基本 概念 


在 数字 图 像 处 理 中 有 一 种 最 为 基本 的 处 理 方法 , 即 线性 滤波 。 将 待 处 理 的 二 维 数字 看 作 一 
个 大 型 矩阵 ,图像 中 的 每 个 像素 可 以 看 作 和 矩阵 中 的 每 个 元 素 ,像素 的 大 小 就 是 矩阵 中 的 元 素 值 。 

而 使 用 的 滤波 工具 是 另 一 个 小 型 矩阵 , 这 个 矩阵 被 称 为 卷 积 核 。 卷 积 核 的 大 小 是 远 远 小 于 
图 像 矩 阵 ， 具体 的 计算 方式 就 是 对 于 图 像 大 矩阵 中 的 每 个 像素 , 计算 其 周围 的 像素 和 卷 积 核对 
应 位 置 的 乘积 , 之 后 将 结果 相 加 最 终 得 到 的 终 值 就 是 该 像素 的 值 ， 这 样 就 完成 了 一 次 卷 积 。 最 
简单 的 图 像 卷 积 方式 如 图 13-1 所 示 。 












图 13-1 卷 积 运算 
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本 节 将 详细 介绍 卷 积 的 运算 、 定 义 以 及 一 些 细节 调整 的 方法 , 这 些 都 是 卷 积 使 用 中 必 不 可 
少 的 内 容 。 


13.1.1 ” 卷 积 运算 


前 面 已 经 说 过 了 , 卷 积 实际 上 是 使 用 两 个 大 小 不 同 的 矩阵 进行 的 一 种 数学 运算 。 为 了 便于 
读者 理解 ， 从 一 个 例子 开始 介绍 。 

假设 需要 对 高 速 公 路 上 的 跑车 进行 位 置 追踪 , 这 也 是 卷 积 神经 网 络 图 像 处 理 的 一 个 非常 重 
要 的 应 用 。 摄 像 头 接收 到 的 信号 被 计算 为 x()， 表 示 跑 车 在 路 上 时 刻 1 的 位 置 。 

但 是 往往 实际 上 的 处 理 没 那么 简单 ,因为 在 自然 界 无 时 无 刻 不 面 临 着 各 种 影响 和 摄像 头 传 
感 器 的 滞后 。 因 此 为 了 得 到 跑车 位 置 的 实时 数据 ,采用 的 方法 就 是 对 测量 结果 进行 均值 化 处 理 。 
但 是 对 于 运动 中 的 目标 , 时 间 越久 的 位 置 则 越 不 可 靠 , 而 时 间 离 计算 时 越 短 的 位 置 则 对 真实 值 
的 相关 性 越 高 。 因 此 可 以 对 不 同 的 时 间 段 赋予 不 同 的 权重 ， 即 通过 一 个 权 值 定义 来 计算 。 这 个 
可 以 表示 为 : 


s(t) = [raod-ada 
这 种 运算 方式 被 称 为 卷 积 运算 ， 换 个 符号 表示 为 : 


SCD= (xxw)(D 

在 卷 积 公式 中 ， 第 一 个 参数 x 被 称 为 “输入 数据 ”， 而 第 二 个 参数 四 被 称 为 “ 核 函数 ” 
s(D) 是 输出 ， 即 特征 映射 。 

数字 图 像 处 理 卷 积 运算 主要 有 两 种 思维 ， 即 “稀疏 矩阵 ”与 “参数 共享 ”。 

首先 对 于 稀 艳 矩阵 来 说 , 卷 积 网 络 具有 稀 玻 性 , 即 卷 积 核 的 大 小 远 远 小 于 输入 数据 矩阵 的 
大 小 。 例 如 当 输 入 一 个 图 片 信息 时 , 数据 的 大 小 可 能 为 上 万 的 结构 ,但 是 使 用 的 卷 积 核 却 只 有 
几 十 ， 这 样 能 够 在 计算 后 获取 更 少 的 参数 特征 ， 极 大 地 减少 了 后 续 的 计算 量 。 

参数 共享 指 的 是 在 特征 提取 过 程 中 , 一 个 模型 在 多 个 参数 之 中 使 用 相同 的 参数 , 在 传统 的 
神经 网 络 中 , 每 个 权重 只 对 其 连接 的 输入 输出 起 作用 , 当 其 连接 的 输入 输出 元 素 结束 后 就 不 会 
再 用 到 。 而 参数 共享 指 的 是 在 卷 积 神经 网 络 中 核 的 每 一 个 元 素 都 被 用 在 输入 的 每 一 个 位 置 上 ， 
而 在 过 程 中 只 需 学 习 一 个 参数 集合 就 能 把 这 个 参数 应 用 到 所 有 的 图 片 元 素 中 。 


【程序 13-1】 
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程序 13-1 实现 了 由 Python 实现 的 卷 积 操作 ， 在 这 里 由 卷 积 核 从 左 到 右 、 由 上 到 下 进行 卷 
积 计算 ， 最 后 将 新 的 矩阵 进行 返回 。 


13.1.2 ”TensorFlow 中 卷 积 函 数 实现 详解 


前 面 章节 中 通过 Python 实现 了 卷 积 的 计算 ，TensorFlow 为 了 框架 计算 的 迅捷 ， 同 样 也 使 
用 了 专门 的 函数 作为 卷 积 计算 函数 。 这 是 搭建 卷 积 神经 网 络 最 为 核心 的 函数 之 一 ， 非 常 重 要 。 


这 里 核心 的 参数 有 5 个 ， 解 释 如 下 : 


input: 指 需 要 做 卷 积 的 输入 图 像 , 它 要 求 是 一 个 Tensor, 具有 [batch, in_height, in_width, 
in_channels] 这 样 的 shape， 具 体 含义 是 [训练 时 一 个 batch 的 图 片 数量 、 图 片 高 度 、 图 
片 宽 度 、 图 像 通道 数 ]， 注 意 这 是 一 个 四 维 的 Tensor， 要 求 类 型 为 float32 和 float64 
其 中 之 一 。 

filter: 相当 于 CNN 中 的 卷 积 核 , 它 要 求 是 一 个 Tensor, 具有 [filter_height, filter_ width, 
in_channels, out_channels] 这 样 的 shape， 具 体 含 义 是 [ 卷 积 核 的 高 度 、 卷 积 核 的 宽度 、 
图 像 通道 数 、 卷 积 核 个 数 ]， 要 求 类 型 与 参数 input 相同 ， 有 一 个 地 方 需要 注意 ， 第 三 
维 in_channels， 就 是 参数 input 的 第 四 维 。 

strides: 卷 积 时 在 图 像 每 一 维 的 步 长 ， 这 是 一 个 一 维 的 向 量 ， 第 一 维和 第 四 维 默认 为 
1， 而 第 三 维和 第 四 维 分 别 是 平行 和 竖 直 滑行 的 步 进 长 度 。 

padding: string 类 型 的 量 ， 只 能 是 “SAME” “VALID” 其 中 之 一 ， 这 个 值 决定 了 不 
同 的 卷 积 方式 。 

use_cudnn_on_gpu: bool 类 型 ， 是 否 使 用 cudnn 加 速 ， 默 认为 true。 


对 于 卷 积 函数 的 具体 使 用 。 假 设 输入 一 张 单 通 道 大 小 为 3X3， 使 用 的 shape 为 [1.3,3,1]， 
此 时 使 用 一 个 [1,1,1,1] 大 小 的 卷 积 核对 其 操作 ， 其 程序 如 下 : 
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【程序 13-2】 





程序 13-2 展示 了 使 用 一 个 卷 积 对 和 拖 阵 进行 处 理 的 例子 ， 最 后 得 到 一 个 [3,3] 大 小 的 矩阵 。 





当 将 图 片 替换 成 一 张 3X3 大 小 的 5 通道 图 像 ， 则 需要 使 用 的 卷 积 核 为 [1,1,5,1], 得 到 的 结 
果 仍 然 是 一 个 [3,3] 大 小 的 矩阵 。 


民 元 这 里 请 读者 自行 修改 输入 输出 参数 进行 验证 。 | 


下 面 对 图 片 和 卷 积 核 做 一 个 修改 , 令 其 为 3X3 的 卷 积 核 ,而 图 片 被 设置 成 5X5 的 5 通道 ， 
令 步 长 为 1， 输 出 3X3 的 特征 值 。 


【程序 13-3】 





205 





TensorFlow 深度 学 习 应 用 实 





最 终结 果 如 下 : 





从 答案 上 看 , 这 是 生成 了 一 个 [3.3] 大 小 的 矩阵 , 这 是 由 于 卷 积 在 工作 时 , 边缘 被 处 理 消失 ， 
因此 生成 的 结果 小 于 原 有 的 图 像 。 

但 是 有 时 候 需要 生成 的 卷 积 结果 和 原 输入 矩阵 的 大 小 一 致 , 则 需要 将 参数 padding 的 值 设 
为 VALID， 当 其 为 SAME 时 ， 表 示 图 像 边 缘 将 由 一 圈 0 补 齐 ， 使 得 卷 积 后 的 图 像 大 小 和 输入 
大 小 一 致 。 


00000000000 
0xXXXXXXXXX0 
0xXXXXXXXXX0 
0xXXXXXXXXX0 


00000000000 


其 中 可 以 看 到 ， 这 里 x 是 图 片 的 矩阵 信息 ， 而 外 面 一 圈 是 补 齐 的 0， 这 里 0 的 作用 是 在 卷 
积 处 理 时 对 最 终结 果 没 有 任何 影响 。 


【程序 13-4】 
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在 这 里 可 以 看 到 ， 补 全 的 命令 padding 被 设置 成 SAME， 则 生成 的 结果 如 下 : 


从 结果 上 可 以 看 到 , 这 里 生成 的 是 一 个 [5.5] 大 小 的 矩阵 ， 因 为 在 计算 时 原始 图 片 用 0 在 外 
面 一 圈 补 齐 ， 因 此 可 以 看 到 最 终生 成 的 矩阵 是 一 个 和 输入 [5.5] 大 小 一 致 的 矩阵 。 

对 于 卷 积 核 来 说 ， 上 面 的 例子 中 卷 积 核 的 步 长 为 1， 而 当 步 长 不 为 1 的 时 候 ， 即 卷 积 核 并 
不 是 逐一 滑行 的 计算 ， 其 程序 如 下 : 





TensorFlow 深 





【程序 13-5】 





最 后 说 下 ,这 里 每 次 输入 的 是 一 张 图 片 ， 而 在 前 面 的 大 量 例子 中 也 可 以 看 到 ， 对 于 数据 的 
输入 来 说 ， 有 时 候 批量 的 数据 输入 对 计算 来 说 更 加 有 效率 ,因此 在 卷 积 运算 函数 中 也 可 以 对 数 
据 进 行 批量 输入 ， 其 代码 如 下 : 


这 里 n 是 输入 图 片 的 数量 。 具 体 请 读者 自行 打印 验证 。 


13.1.3 ”使 用 卷 积 函 数 对 图 像 感 兴趣 区 域 进行 标注 


图 像 感 兴趣 区 域 是 指 图 像 内 部 的 一 个 子 区 域 由 计算 机 自动 进行 标注 的 方式 。 在 实际 使 用 中 
常用 不 同 的 卷 积 核 进行 。 在 上 文 介绍 了 TensorFlow 中 卷 积 函 数 的 使 用 ， 本 小 节 将 使 用 它 对 图 
像 进 行 感 兴趣 区 域 的 自动 提取 。 


【程序 13-6】 
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程序 13-6 是 采用 了 [7,7] 大 小 的 矩阵 进行 卷 积 运 算 的 代码 ， 其 结果 如 图 13-2 所 示 。 


了 





图 13-2” 低 卷 积 处 理 的 图 像 结 果 


从 图 像 结果 可 以 看 到 , 使 用 了 [7,7] 大 小 的 卷 积 核 后 ， 生 成 的 图 片 已 经 有 了 边缘 特征 ， 此 时 
如 果 加 大 卷 积 核 的 大 小 ， 调 整 为 [11,11]， 代 码 如 下 : 


【程序 13-7】 
import tensorflow as tf 
import cv2 
import numpy as np 


img = cv2.imread("lena.jpg") 


img = np.array (img, dtype=np.float32) 
x image=tf.reshape (img, [1,512,512,3]) 


filter = tf.Variable(tf.ones([11, 11, 3, 1])) 


init = tf.global variables initializer() 
with tf.Session() as sess: 


sess.run(init) 
res = tf.nn.conv2d(x image, filter, strides=[1, 2, 2, 1], padding="'SAME') 
res image = sess.runl(tf.reshape (res, [256,256]))/128 + 1 


cv2.imshow ("lena",res image.astype('uint8')) 
cv2 .waitKey () 


生成 的 结果 如 图 13-3 所 示 。 





图 13-3 增 大 卷 积 核 卷 积 处 理 的 图 像 结果 


209 


TensorFlow 深度 学 习 应 用 实践 





此 时 的 区 域 特 征 更 加 明显 , 但 是 由 于 卷 积 增 大 得 过 于 强烈 , 此 时 图 片 的 边缘 检测 已 经 超过 
所 需要 的 程度 。 





13.1.4” 池 化 运算 


在 通过 卷 积 获得 了 特征 (features) 之 后 ， 下 一 步 希望 利用 这 些 特征 去 做 分 类 。 理 论 上 讲 ， 
人 们 可 以 用 所 有 提取 得 到 的 特征 去 训练 分 类 器 ， 例 如 softmax 分 类 器 ， 但 这 样 做 面临 计算 量 
的 挑战 。 例 如 : 对 于 一 个 96X96 像素 的 图 像 ， 假 设 我 们 已 经 学 习 得 到 了 400 个 定义 在 8X8 
输入 上 的 特征 , 每 一 个 特征 和 图 像 卷 积 都 会 得 到 一 个 (96 一 8+ 1)X(96-8+1)=7921 维 的 卷 
积 特征 , 由 于 有 400 个 特征 , 所 以 每 个 样 例 (example) 都 会 得 到 一 个 892X400 =3,168,400 维 
的 卷 积 特征 向 量 。 学 习 一 个 拥有 超过 3 百 万 特征 输入 的 分 类 器 十 分 不 便 ， 并 且 容 易 出 现 过 拟 
合 (over-fitting) 。 

这 个 问题 的 产生 是 由 于 卷 积 后 的 特征 图 像 具 有 一 种 “静态 性 ”的 属性 ， 这 也 就 意味 着 在 一 
个 图 像 区 域 有 用 的 特征 极 有 可 能 在 另 一 个 区 域 同 样 适用 。 因 此 , 为 了 描述 大 的 图 像 ， 一 个 很 自 
然 的 想法 就 是 对 不 同位 置 的 特征 进行 聚合 统计 , 例如 , 特征 提取 可 以 计算 图 像 一 个 区 域 上 的 某 
个 特定 特征 的 平均 值 (或 最 大 值 ) 。 这 些 概要 统计 特征 不 仅 具有 低 得 多 的 维度 〈 相 比 使 用 所 有 
提取 得 到 的 特征 ), 同时 还 会 改善 结果 (不 容易 过 拟 合 )。 这 种 聚合 的 操作 就 叫做 池 化 (pooling)， 
有 时 也 称 为 平均 池 化 或 者 最 大 池 化 (取决 于 计算 池 化 的 方法 ) 。 

如 果 选 择 图 像 中 的 连续 范围 作为 池 化 区 域 ,并且 只 是 池 化 相同 (重复 ) 的 隐藏 单元 产生 的 
特征 ， 那 么 ， 这 些 池 化 单元 就 具有 平移 不 变性 〈translation invariant) 。 这 就 意味 着 即使 图 像 
经 历 了 一 个 小 的 平移 之 后 , 依然 会 产生 相同 的 ( 池 化 的 ) 特征 。 在 很 多 任务 中 (例如 物体 检测 、 

音 识别 ) ,我 们 都 更 希望 得 到 具有 平移 不 变性 的 特征 ， 因 为 即使 图 像 经 过 了 平移 ， 样 例 (图 
像 ) 的 标记 仍然 保持 不 变 。 

TensorFlow 中 池 化 运算 的 函数 如 下 : 

tf.nn.max _ pool (value, ksize, strides, padding, name=None) 

参数 是 4 个 ， 和 卷 积 很 类 似 ， 效 果 则 如 图 13-4 所 示 。 


@ value: 需要 池 化 的 输入 ， 一 般 池 化 层 接 在 卷 积 层 后 面 ， 所 以 输入 通常 是 feature map， 
依然 是 [batch, height, width, channels] 这 样 的 shape。 

@ ksize: 池 化 窗口 的 大 小 ， 取 一 个 四 维 向 量 ， 一 般 是 [1, height, width, 1]， 因 为 我 们 不 想 
在 batch 和 channels 上 做 池 化 ， 所 以 这 两 个 维度 设 为 了 1。 

@ strides: 和 卷 积 类 似 ， 窗 口 在 每 一 个 维度 上 滑动 的 步 长 ， 一 般 也 是 [1, stride,stride, 1]。 

@@ padding: 和 卷 积 类 似 ， 可 以 取 “VALID” 或 者 “SAME” ， 返 回 一 个 Tensor， 类 型 
不 变 ，shape 仍然 是 [batch, height, width, channels] 这 种 形式 。 
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max-pooling 
图 13-4 max-pooling 后 的 图 片 
池 化 一 个 非常 重要 的 作用 就 是 能 够 帮助 输入 的 数据 表示 近似 不 变性 .对 于 平移 不 变性 指 的 
是 对 输入 的 数据 进行 少量 平移 时 , 经 过 池 化 后 的 输出 结果 并 不 会 发 生 改 变 。 局 部 平移 不 变性 是 
一 个 很 有 用 的 性 质 ， 尤 其 是 当 关心 某 个 特征 是 否 出 现 而 不 关心 它 出 现 的 具体 位 置 时 。 


例如 ， 当 判定 一 张 图 像 中 是 否 包含 人 脸 时 ,并 不 需要 判定 眼睛 的 位 置 ， 而 是 需要 知道 有 一 
只 眼睛 出 现在 脸 部 的 左 侧 ， 而 另外 有 一 只 出 现在 右 侧 就 可 以 了 。 


【程序 13-8】 





6 4 
4 5 
3 4 
2 4 
1 5 
2 1 


2 = Do 
mwN DOD N 


而 程序 打印 结果 如 下 : 
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13.1.5 ”使 用 池 化 运算 加 强 卷 积 特征 提取 


现在 考虑 13.1.3 小 节 中 对 图 像 感 兴趣 区 域 的 提取 ,此 时 如 果 在 进行 卷 积 后 的 图 片 加 上 一 个 
卷 积 ， 代 码 如 下 所 示 。 


【程序 13-9】 





而 最 终结 果 如 图 13-5 所 示 。 


厅 





图 13-5 低 卷 积 处 理 的 图 像 结 果 


图 13-5 展示 了 原 图 、 图 像 经 过 [7,7] 大 小 的 卷 积 以 及 池 化 后 的 输出 结果 ， 从 视觉 上 看 这 个 图 像 
处 理 经 过 卷 积 和 池 化 处 理 后 并 没有 什么 变化 ， 而 当 查 看 打印 出 的 张 量 后 发 生 了 变化 ， 如 下 所 示 。 
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Cov: Tensor("Conv2D:0", shape=(1, 256, 256, 1), dtype=float32) 


maxpool: Tensor("MaxPool:0", shape=(1, 128, 128, 1), dtype=float32) 


原始 图 像 大 小 为 [512,512]， 而 经 过 卷 积 后 大 小 变 为 [256,256]， 当 经 过 池 化 后 ， 图 片 大 小 变 
为 [128,128]。 这 个 缩减 在 神经 网 络 的 处 理 上 是 大 大 可 观 的 。 

前 面 通过 多 种 实例 和 方法 说 明了 卷 积 运算 可 以 对 图 像 特 征 所 提取 出 的 数据 进行 特征 提取 
和 压缩 ,这 在 神经 网 络 中 可 以 极 大 地 提高 运算 效率 和 获取 图 像 的 特征 .但 是 在 带 来 好 处 的 同时 ， 
卷 积 核 池 化 有 其 不 足 之 处 , 主要 是 在 图 像 进行 卷 积 与 池 化 时 可 能 导致 从 拟 合 。 当 训练 模型 需要 
保存 精确 的 图 像 特征 时 , 使 用 卷 积 和 池 化 会 加 大 训练 误差 , 或 者 当 卷 积 核 在 图 像 上 移动 的 步伐 
过 大 或 过 小 时 ， 会 导致 拟 合 不 合适 。 


本 .2 卷 积 神经 网 络 的 结构 详解 


前 面 介绍 了 卷 积 运算 的 基本 原理 和 概念 , 从 本 质 上 来 说 卷 积 神经 网 络 就 是 将 图 像 处 理 中 的 
二 维 离散 卷 积 运算 和 神经 网 络 相 结合 。 这 种 卷 积 运算 可 以 用 于 自动 提取 特征 ,而 卷 积 神经 网 络 
也 主要 应 用 于 二 维 图 像 的 识别 。 


13.2.1 ” 卷 积 神经 网 络 原 理 


卷 积 的 原理 和 池 化 作用 在 上 文 已 经 做 了 详细 的 介绍 , 本 节 将 采用 图 示 的 方法 更 加 直观 地 介 
绍 卷 积 神经 网 络 的 工作 原理 ， 并 使 用 TensorFlow 实现 经 典 的 LeNet 网 络 ， 这 是 卷 积 神经 网 络 
处 理 图 像 的 开山 之 作 ， 也 是 最 基础 的 网 络 结构 。 

-个 卷 积 神经 网 络 包含 一 个 输入 层 、 一 个 卷 积 层 、 一 个 输出 层 ， 但 是 在 真正 使 用 的 时 候 一 
般 会 使 用 多 层 卷 积 神经 网 络 不 断 地 去 提取 特征 ， 特 征 越 抽象 ， 越 有 利于 识别 〈 分 类 ) 。 而 且 通 
常 卷 积 神经 网 络 也 包含 池 化 层 、 全 连接 层 ， 最 后 再 接 输出 层 。 

图 13-6 展示 了 一 幅 图 片 进 行 卷 积 神经 网 络 处 理 的 过 程 。 其 中 主要 包含 4 个 步骤 : 

(1) 图 像 输入 : 获取 输入 的 数据 图 像 。 

(2) 卷 积 : 对 图 像 特 征 进行 提取 。 

(3) maxpool: 用 于 缩小 在 卷 积 时 获取 的 图 像 特 征 。 

(4) 全 连接 层 : 用 于 对 图 像 进行 分 类 。 
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13-6 卷 积 神经 网 络 处 理 图 像 的 步骤 


这 几 个 步骤 依次 进行 ,分 别 具 有 不 同 的 作用 。 而 经 过 卷 积 层 的 图 像 被 分 别提 取 特 征 后 获得 
分 块 的 同样 大 小 的 图 片 ， 如 图 13-7 所 示 。 


SP 
wd sh 
= T Adz | 
:| TE | | jhe 
FLEET [LL TT 
[1 
TTITILLTISS 


图 13-7 卷 积 处 理 的 分 解 图 像 


可 以 看 到 , 经 过 卷 积 处 理 后 的 图 像 被 分 为 若干 个 大 小 相同 的 只 有 具有 局 部 特征 的 图 片 。 下面 
则 对 分 解 后 的 图 片 使 用 一 个 小 型 神经 网 络 做 进一步 地 处 理 , 即将 二 维 矩 阵 转化 成 一 维 数组 , 如 
图 13-8 所 示 。 
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Processing a single tile 


Outputs 


Input Tile 





13-8 分 解 后 图 像 的 处 理 


需要 说 明 的 是 ,在 这 个 步骤 ,也 就 是 对 图 片 进行 卷 积 化 处 理 时 ， 卷 积 算法 对 所 有 的 分 解 后 
的 局 部 特征 进行 同样 的 计算 ， 这 个 步骤 称 为 “ 权 值 共享 ”。 这 样 做 的 依据 如 下 : 


@ 对 图 像 等 数组 数据 来 说 ,局 部 数组 的 值 经 常 是 高 度 相关 的 ， 可 以 形成 容易 被 探测 到 的 
独特 的 局 部 特征 。 

@ 图像 和 其 他 信和 号 的 局 部 统计 特征 与 其 位 置 是 不 太 相关 的 ,如 果 特 征 图 能 在 图 片 的 一 个 
部 分 出 现 ， 也 能 出 现在 任何 地 方 。 所 以 不 同位 置 的 单元 共享 同样 的 权重 ， 并 在 数组 的 
不 同 部 分 探测 相同 的 模式 。 


数学 上 ， 这 种 由 一 个 特征 图 执行 的 过 滤 操 作 是 一 个 离散 的 卷 积 ， 卷 积 神经 网 络 由 此 得 名 。 

池 化 层 的 作用 是 对 获取 的 图 像 特征 进行 缩减 ， 从 前 面 的 例子 中 可 以 看 到 , 使 用 [2,2] 大 小 的 
矩阵 来 处 理 特征 矩阵 ， 使 得 原 有 的 特征 矩阵 可 以 缩减 到 1/4 大 小 ， 特 征 提 取 的 池 化 效应 ， 如 图 
13-9 所 示 。 


Find the max value in each 
grid square in our Array 


Max-pooled array 





13-9 池 化 处 理 后 的 图 像 


池 化 层 的 作用 是 对 获取 的 图 像 特 征 进行 缩减 ,从 前 面 的 例子 中 可 以 看 到 , 使 用 [2.2] 大 小 的 
和 矩阵 来 处 理 特征 矩阵 ， 使 得 原 有 的 特征 矩阵 可 以 缩减 到 1/4 大 小 特征 提取 的 池 化 效应 。 

经 过 池 化 处 理 的 图 像 矩 阵 作为 神经 网 络 的 数据 输入 , 这 是 一 个 全 连接 层 对 所 有 的 数据 进行 
分 类 处 理 ， 并 且 计 算 这 个 图 像 所 求 的 所 属 位 置 概率 最 大 值 ， 如 图 13-10 所 示 。 
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Outputs 


Fully-connected 
Neural Network 





图 13-10 全 连接 层 判 断 


如 果 采 用 较为 通俗 的 语言 概括 , 卷 积 神经 网 络 是 一 个 层级 递增 的 结构 , 也 可 以 将 其 认为 是 
一 个 人 在 读 报纸 一 样 ， 首 先 一 字 一 句 地 读 取 , 之 后 整 段 地 理解 ， 最 后 获得 全 文 的 倾向 。 卷 积 神 
经 网 络 也 是 从 边缘 、 结 构 和 位 置 等 一 起 感知 物体 的 形状 。 


13.2.2” 卷 积 神经 网 络 的 应 用 实例 一 一 LeNet5 网 络 结构 


在 计算 机 视觉 中 卷 积 神经 网 络 取得 了 巨大 的 成 功 , 它 在 工业 上 以 及 商业 上 的 应 用 很 多 , 一 
种 商业 上 最 典型 的 应 用 就 是 识别 支票 上 的 手写 数字 的 LeNet5 神经 网 络 。 从 20 世纪 90 年 代 开 
始 美国 大 多 数 银行 都 用 这 种 技术 识别 支票 上 的 手写 数字 ， 如 图 13-11 所 示 。 


Layer-3 Input 
Layer-1 


13-11 LeNet5 卷 积 神经 网 络 应 用 


实际 应 用 中 的 LeNet5 卷 积 神经 网 络 共 有 8 层 (图 13-12) ， 其 中 每 层 都 包含 可 训练 的 神 
经 元 ， 而 连接 神经 元 的 是 每 层 的 权重 。 
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C1: feature maps 
6@28x28 


图 13-12 8 层 LeNets 卷 积 神经 网 络 
LeNet5 C1 到 S2 层 的 连接 如 图 13-13 所 示 。 








图 13-13 C1l 到 S2 的 处 理 结构 


首先 对 于 INPUT 层 来 说 , 这 是 数据 的 输入 层 , 在 原始 模型 框架 中 , 输入 图 像 大 小 为 [32,32]， 
这 样 能 够 将 所 有 的 手写 信息 被 神经 网 络 感受 到 。 

第 一 个 卷 积 层 C1 是 最 初 开始 进行 卷 积 计算 的 层 数 。 卷 积 层 特征 的 计算 公式 如 下 : 

x = f(D x * kl) + bi) 

其 中 有 0/ 表示 从 第 1 层 到 1+1 层 要 产生 的 feature 数量 ， 即 5X5=25 个 ; 5 代表 bias 
的 数量 ， 这 里 的 bias 是 1。 从 C1 的 深度 上 来 看 ， 模 型 中 的 深度 为 6， 因 此 可 以 计算 到 在 卷 积 
层 Cl 中 所 有 的 参数 个 数 为 6X(5X5+1)=156 个 。 而 对 于 C1 层 来 说 ， 每 个 像素 都 与 前 一 个 输 
入 层 的 像素 相连 接 ， 因 此 对 于 Cl 层 ， 总 共有 156X28X28=122304 个 连接 。 

而 对 于 S2 这 个 pooling 层 来 说 ， 这 里 是 Cl 中 的 [2,2] 区 域内 的 像素 求 和 再 加 上 一 个 偏 置 ， 
然后 将 这 个 结果 再 做 一 次 映射 (sigmoid 等 函数 ) ， 所 以 相当 于 对 S1 做 了 降 维 ， 此 处 共有 6 
X2=12 个 参数 。S2 中 的 每 个 像素 都 与 C1 中 的 2X2 个 像素 和 1 个 偏 置 相连 接 ， 所 以 有 6X5 
X14X14=5880 个 连接 (connection ) 。 

LeNet5 最 复杂 的 就 是 S2 到 C3 层 ， 其 连接 如 图 13-14 所 示 。 


01234567 8 9 1011 12 1314 15 





CE 


13-14”S2 到 C3 的 处 理 结构 
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前 6 个 feature map 与 S2 层 相连 的 3 个 feature map 相连 接 , 后 面 6 个 feature map 与 S2 层 
相连 的 4 个 feature map 相连 接 ， 后 面 3 个 feature map 与 S2 层 部 分 不 相连 的 4 个 feature map 
相连 接 ， 最 后 一 个 与 S2 层 的 所 有 feature map 相连 。 卷 积 核 大 小 依然 为 SX5， 所 以 总 共有 6 
XG3X5X5+1)+6X(4X5X5+1)+3X(4X5X5+1)+1X(6X5X5+1)=1516 个 参数 。 而 图 像 大 小 为 
10X10， 所 以 共有 151600 个 连接 。 

S4 是 pooling 层 , 窗口 大 小 仍然 是 2X2, 共计 16 个 feature map, 所 以 32 个 参数 , 16X(25 
X4+25) =2000 个 连接 。 

C5 是 卷 积 层 ， 总 共 120 个 feature map， 每 个 feature map 与 S4 层 所 有 的 feature map 相连 
接 ， 卷 积 核 大 小 是 5X5， 而 S4 层 的 feature map 的 大 小 也 是 SX5， 所 以 C5 的 feature map 就 
变 成 了 1 个 点 ， 共 计 有 120X(25X 16+1)=48120 个 参数 。 

最 后 一 层 F6 层 也 是 全 连接 层 ， 有 84 个 节点 ， 所 以 有 84X(120+1)=10164 个 参数 。F6 层 
采用 了 正切 函数 ， 计 算 公式 为 : 


Xx’ = f(a,) = tanh (a,) 


最 后 是 输出 层 ， 以 上 这 8 层 合 在 一 起 构成 了 LeNet5 神经 网 络 的 全 部 结构 。 


13.2.3” 卷 积 神经 网 络 的 训练 


郑 积 网 络 在 本 质 上 是 一 种 输入 到 输出 的 映射, 它 能 够 学 习 大 量 的 输入 与 输出 之 间 的 映射 关 
系 , 而 不 需要 任何 输入 和 输出 之 间 的 精确 的 数学 表达 式 , 只 要 用 已 知 的 模式 对 状 积 网 络 加 以 训 
练 ,网 络 就 具有 输入 输出 对 之 间 的 映射 能 力 。 卷 积 网 络 执行 的 是 有 导师 训练， 所 以 其 样本 集 是 
由 形 如 《〈 输 入 向 量 ， 理 想 输出 向 量 ) 的 向 量 对 构成 的 。 

所 有 这 些 向 量 对 ， 都 应 该 是 来 源 于 网 络 ， 即 将 模拟 系统 的 实际 “运行 ”结果 。 它 们 可 以 是 
从 实际 运行 系统 中 采集 来 的 。 在 开始 训练 前 , 所 有 的 权 都 应 该 用 一 些 不 同 的 小 随机 数 进行 初始 
化 。“ 小 随机 数 ” 用 来 保证 网 络 不 会 因 权 值 过 大 而 进入 饱和 状态 ， 从 而 导致 训练 失败 ; “不 同 ” 
用 来 保证 网 络 可 以 正常 地 学 习 。 实际 上 , 如 果 用 相同 的 数 去 初始 化 权 和 矩阵 , 则 网 络 无 能 力学 习 。 

卷 积 神经 网 络 的 具体 使 用 上 和 一 般 反 馈 神 经 网 络 相同 ， 分 成 前 向 和 后 向 传播 。 

1. 第 一 阶段 : 向 前 传播 阶段 


(1) 从 样本 集中 取 一 个 样本 ， 将 样本 输入 卷 积 神经 网 络 。 
(2) 计算 相应 的 实际 输出 。 


在 此 阶段 ， 信 息 从 输入 层 经 过 逐 级 的 变换 ,传送 到 输出 层 。 这 个 过 程 也 是 网 络 在 完成 训练 
后 正常 运行 时 执行 的 过 程 。 在 此 过 程 中 ,网络 执行 的 是 计算 《实际 上 就 是 输入 与 每 层 的 权 值 矩 
阵 相 乘 ， 得 到 最 后 的 输出 结果 ) 。 

2. 第 二 阶段 : 向 后 传播 阶段 


(1) 计算 实际 输出 Op 与 相应 的 理想 输出 儿 的 差 。 
(2) 按 极 小 化 误差 的 方法 反 向 传播 调整 权 和 矩阵 。 
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1 3 .3 TensorFlow 实现 LeNet 实例 


前 面 已 经 介绍 了 LeNet 的 实例 , 本 节 开 始 根 据 LeNet 结构 构建 这 个 经 典 的 深度 神经 网 络 模 
型 ， 如 图 13-12 所 示 。 本 节 首 先 会 逐步 对 LeNet 中 的 每 一 层 进行 分 解 ， 会 对 神经 元 的 个 数 、 隐 
藏 层 的 层 数 以 及 学 习 率 等 神经 网 络 关键 参数 做 出 调整 ， 观 察 模型 训练 的 时 间 。 


13.3.1 LeNet 模型 分 解 


首先 是 数据 的 导入 ， 这 里 使 用 的 是 MNIST 数据 集 ， 对 数据 的 导入 使 用 给 定 的 数据 导入 方 
法 以 及 相关 的 包 ， 代 码 如 下 : 


可 以 看 到 ， 这 里 导入 了 3 个 包 ， 分 别 是 tensorflow、input_data 以 及 time。 
下 面 是 声明 输入 图 片 的 数据 和 类 别 : 


之 后 对 输入 的 数据 进行 转化 ， 前 面 章 节 已 经 介绍 了 这 里 的 MNIST 数据 集 是 以 [None,784] 
的 数据 格式 存放 的 ， 而 对 于 卷 积 神经 网 络 来 说 ， 需 要 把 图 像 的 位 置信 息 进行 保存 ， 因 此 这 里 将 
一 维 的 数组 重新 转换 为 二 维 图 像 和 矩阵: 


下 面 是 第 一 个 卷 积 层 的 处 理 ， 这 里 需要 将 输入 的 数据 由 [28,28] 转 化 为 [28,28,6] 的 矩阵 ， 其 
中 第 三 个 参数 “6” 指 的 是 图 片 经 过 卷 积 后 分 成 6 个 通道 。 具 体 实现 代码 如 下 : 





可 以 看 到 ， 这 里 filterl 和 biasl 分 别 是 使 用 女 变 量 初始 化 卷 积 核 和 偏 署 值 。filterl 中 的 4 
个 参数 分 别 表示 卷 积 核 是 由 5X5 大 小 的 卷 积 ， 输 入 为 1 个 通道 而 输出 为 6 个 通道 。 而 biasl 
指 的 是 生成 的 偏 置 值 与 卷 积 结果 进行 求 和 的 计算 。 最 后 通过 sigmoid 函数 求 得 第 一 个 卷 积 层 输 
出 结果 。 

在 第 一 个 卷 积 层 之 后 是 一 个 池 化 层 ， 这 里 使 用 的 是 maxPooling， 对 于 2X2 大 小 的 框 进行 
最 大 特征 取 值 。 代 码 如 下 : 
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这 里 可 以 看 到 卷 积 的 大 小 是 由 ksize 设置 ， 而 strides 是 步 进 的 大 小 ， 这 里 是 传统 的 2 格 步 进 。 
第 三 层 仍 旧 是 卷 积 层 ， 这 里 需要 进行 卷 积 计 算 后 的 大 小 为 [10,10,16]， 其 后 的 池 化 层 将 特 
征 进行 再 一 次 压缩 。 代 码 如 下 : 





后 面 的 2 个 是 全 连接 层 ， 全 连接 层 的 作用 在 整个 卷 积 神经 网 络 中 起 到 “分 类 器 ”的 作用 。 
如 果 说 卷 积 层 、 池 化 层 和 激活 函数 层 等 操作 是 将 原始 数据 映射 到 隐 层 特征 空间 的 话 , 全 连接 层 
则 起 到 将 学 到 的 “分 布 式 特征 表示 ”映射 到 样本 标记 空间 的 作用 。 具 体 实现 代码 如 下 : 





这 里 对 池 化 介绍 后 的 数据 进行 重新 展开 ,将 二 维 数据 重新 展开 成 一 维 数组 之 后 计算 每 一 行 
的 元 素 个 数 。 最 后 一 个 输出 层 在 使 用 了 softmax 进行 概率 的 计算 。 





最 后 是 交叉 炉 作 为 损失 函数 ， 使 用 梯度 下 降 算 法 来 对 模型 进行 训练 。 
完整 代码 如 程序 13-10 所 示 。 


【程序 13-10】 
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为 了 验证 结果 ， 这 里 同样 使 用 了 accuracy 作为 正确 率 的 判断 ， 对 输入 的 数据 计算 模型 计 
算 结 果 和 真实 值 之 间 的 差距 。 
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具体 结果 如 下 : 





可 以 看 到 ， 准 确 率 在 平滑 地 上 升 ， 当 第 500 次 迭代 时 ， 准 确 率 能 达到 0.825 左右 ; 而 当 达 
到 1350 次 迭代 时 ， 准 确 率 能 达到 0.955 左右 。 


13.3.2 ”使 用 ReLU 激活 函数 代替 sigmoid 


对 于 神经 网 络 模型 来 说 , 首先 重要 的 一 个 目标 就 是 能 够 达到 最 好 的 准确 率 , 这 需要 通过 设 
计 不 同 的 模型 和 算法 完成 。 其 次 在 模型 的 训练 过 程 中 一 般 要 求 能 够 在 最 短 的 时 间 内 达到 收敛 。 

13-15 是 模型 在 1000 次 欠 代 过 程 中 准确 率 的 描绘 。 此 时 在 对 模型 的 准确 率 的 绘制 过 程 
中 可 以 看 到 , 准确 率 在 前 面 200 次 迭代 计算 过 程 中 上 升 得 非常 慢 , 之 后 准确 率 有 个 非常 快速 上 
升 的 过 程 ， 而 到 达 一 定额 度 后 准确 率 又 重新 缓慢 上 升 。 














0 200 0 500 300 ioo 


13-15 ”传统 的 sigmoid 和 tanh 激活 函数 
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前 面 的 分 析 中 ,在 算法 设计 上 激活 函数 使 用 的 是 sigmoid 函数 。 传 统 神经 网 络 中 最 常用 的 
两 个 激活 函数 为 sigmoid 和 tanh，sigmoid (Logistic-Sigmoid、Tanh-Sigmoid) 被 视 为 神经 网 络 
的 核心 所 在 。 从 数学 上 来 看 ， 非 线性 的 sigmoid 函数 对 中 央 区 的 信号 增益 较 大 ， 对 两 侧 区 的 信 
号 增益 较 小 ， 在 信号 的 特征 空间 映射 上 ， 有 很 好 的 效果 。 

但 是 从 图 13-16 上 也 可 以 看 到 , 由 于 sigmoid 和 tanh 激活 函数 左右 两 端 在 很 大 程度 上 接近 
极 值 , 容易 饱和 , 因此 在 进行 计算 时 当 传 递 的 数值 过 小 或 者 过 大 时 会 使 得 神经 元 梯度 接近 于 0， 
这 使 得 在 模型 计算 时 会 多 次 计算 接近 于 0 的 梯度 , 从 而 导致 花费 了 学 习 时 间 却 使 得 权重 没有 更 新 。 

















13-16 ”传统 的 sigmoid 和 tanh 激活 函数 


为 了 克服 sigmoid 和 tanh 函数 容易 产生 提取 梯度 迟缓 这 一 弊端 , 在 不 断 的 研究 过 程 中 发 现 
了 一 种 新 的 激活 函数 ReLU 函数 ， 如 图 13-17 所 示 。 


f(x) = max(0,x) 





13-17 ReLU 激活 函数 


相 较 于 sigmoid 和 tanh 函数 ， ReLU 主要 有 以 下 几 个 优点 : 

@ ”收敛 快 : 对 于 SGD 的 收敛 有 巨大 的 加 速 作用 ， 可 以 看 到 对 于 达到 阅 值 的 数据 其 激 
活力 度 是 随 数值 的 加 大 而 增 大 ， 且 呈现 一 个 线性 关系 。 

@ 计算 简单 : ReLU 的 算法 较为 简单 ， 单 纯 一 个 值 的 输入 输出 不 需要 进行 一 系列 的 复杂 
计算 ， 从 而 获得 激活 值 。 
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@ ”不 易 过 拟 合 : 使 用 ReLU 进行 模型 计算 时 , 一 部 分 神经 元 在 计算 时 如 果 有 一 个 过 大 的 
梯度 经 过 ， 则 次 神经 元 的 梯度 会 被 强行 设置 为 0， 而 在 整个 其 后 的 训练 过 程 中 这 个 神 
经 元 都 不 会 被 激活 ， 这 会 导致 数据 多 样 化 的 丢失 , 但 是 也 能 防止 过 拟 合 。 这 个 现象 一 
般 不 被 注意 到 。 


【程序 13-11】 
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在 程序 13-11 中 使 用 了 relu 函数 蔡 代 sigmoid 函数 , 其 他 没有 变化 , 准确 率 结果 如 图 13-18 
所 示 。 











图 13-18 ”使 用 ReLU 激活 函数 的 准确 率 计算 


从 图 中 可 以 看 到 ， 准 确 率 并 没有 提高 ， 反 而 长 时 间 在 低 水 平 徘徊 。 在 前 面 介 绍 ReLU 优点 
的 时 候 就 说 过 ,不同 的 学 习 率 , 对 ReLU 模型 的 训练 会 有 很 大 影响 ， 准 确 率 设置 不 当 会 造成 大 
量 的 神经 元 被 锁 死 。 如 果 此 时 将 模型 的 学 习 率 改变 : 


即 减少 了 模型 的 学 习 率 ， 由 0.001 变 为 0.0001。 具 体 请 读者 自行 修改 完成 。 


13.3.3 程序 的 重 构 一 一 模块 化 设计 


在 上 文 程序 设计 中 为 了 反应 LeNet 模型 的 基本 结构 ,在 程序 编写 时 遵循 了 “由 前 向 后 , 缺 
什么 补 什么 ”的 思路 。 结 果 可 以 看 到 , 程序 也 能 较 好 地 完成 工作 达到 模型 设计 的 目的 。 但 是 也 
可 以 看 到 ， 这 种 程序 的 设计 模式 是 非常 腔 肿 的 ， 因 此 在 本 小 节 将 对 程序 进行 重 构 。 

首先 可 以 看 到 ， 为 了 模型 的 正常 使 用 ， 在 图 计算 过 程 中 需要 使 用 大 量 的 权重 值 和 偏 置 量 。 
这 些 都 是 由 TensorFlow 变量 所 设置 。 而 变量 带 来 的 问题 就 是 在 每 次 图 对 话 计算 过 程 中 都 要 被 
反复 初始 化 和 赋予 新 值 ， 因 此 在 程序 的 编写 过 程 中 为 了 更 好 地 反应 模型 的 设计 问题 ， 不 在 
TensorFlow 进行 初始 化 运算 时 反复 进行 格式 化 。 
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对 于 weight_variable 函数 中 , tftruncated_normal 初始 函数 将 根据 所 得 到 的 均值 和 标准 差 ， 
生成 一 个 随机 分 布 。 此 时 就 是 根据 传递 进来 的 矩阵 的 元 素 个 数 生成 一 个 标准 差 为 0.1 的 矩阵 。 

而 bias_variable 函数 是 首先 生成 了 一 个 值 为 0.1 的 矩阵 , 之 后 将 其 强制 改编 成 TensorFlow 
的 变量 形式 ， 这 也 是 TensorFlow 图 计算 的 一 种 常用 强制 赋值 的 方法 。 

下 面 继续 对 代码 进行 分 析 ， 卷 积 变化 以 及 max-pooling 也 是 最 为 常用 的 函数 ， 而 观察 这 些 
函数 ， 卷 积 使 用 的 步 长 和 边 距 都 是 相同 ， 这 样 做 的 好 处 是 为 了 保证 输入 和 输出 是 同样 大 小 。2 
个 池 化 层 也 使 用 统一 的 2X2 大 小 的 模板 做 池 化 处 理 ， 因 此 也 可 以 将 这 2 个 步骤 抽象 成 函数 。 





第 一 层 由 一 个 卷 积 接 一 个 max pooling 完成 。 卷 积 在 每 个 5X5 的 patch 中 算出 6 个 特征 。 
卷 积 的 权重 张 量 形状 是 [5, 5, 1, 6]， 前 两 个 维度 是 patch 的 大 小 ， 接 着 是 输入 的 通道 数目 ， 最 后 
是 输出 的 通道 数目 。 而 对 于 每 一 个 输出 通道 都 有 一 个 对 应 的 偏 置 量 ， 然 后 应 用 ReLU 激活 函 
数 ， 最 后 进行 max pooling。 





为 了 构建 一 个 更 深 的 网 络 第 二 层 ， 每 个 5X5 的 patch 会 得 到 16 个 特征 。 


此 时 经 过 2 次 卷 积 核 池 化 处 理 后 的 图 片 尺寸 减 小 到 7X7， 加 入 一 个 有 120 个 神经 元 的 全 
连接 层 ， 用 于 处 理 整个 图 片 。 而 为 了 全 连接 的 计算 ， 需 要 把 池 化 层 输出 的 张 量 reshape 成 一 些 
向 量 ， 乘 上 权重 和 矩阵， 加 上 偏 置 ， 然 后 对 其 使 用 ReLU 。 
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最 后 一 个 softmax 函数 用 于 计算 输出 的 数据 对 应 于 分 类 概率 的 大 小 。 


以 上 就 是 用 于 修改 的 重 构 化 后 的 程序 代码 ， 完 整 代码 如 程序 13-12 所 示 。 
【程序 13-12】 
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具体 结果 请 读者 自行 打印 完成 。 


13.3.4” 卷 积 核 和 隐藏 层 参数 的 修改 


前 面 通过 调整 激活 函数 和 学 习 率 使 得 模型 的 学 习 有 了 一 个 非常 大 的 提高 ,对 于 深度 学 习 其 
至 于 机 器 学 习 来 说 , 参数 的 调节 是 必须 要 掌握 的 学 习 能 力 。 除 此 之 外 深度 学 习 中 有 不 同 的 隐藏 
层 和 每 层 包 含 的 神经 元 , 而 通过 调节 这 些 神经 元 和 隐藏 层 的 数目 , 也 可 以 改善 神经 网 络 模型 的 
设计 。 

程序 13-13 修改 了 每 个 隐藏 层 中 神经 元 的 数目 ， 即 第 一 次 生成 了 32 个 通道 的 卷 积 层 ， 第 
二 层 为 64， 而 在 全 连接 阶段 使 用 了 1024 个 神经 元 作为 学 习 参数 。 程 序 代码 如 下 : 


【程序 13-13】 





231 
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将 其 结果 与 程序 13-12 的 程序 结果 进行 比较 ， 如 图 13-19 所 示 。 
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13-19 卷 积 核 变化 时 准确 率 变化 图 


左边 是 程序 13-12 的 准确 率 变 化 图 ， 而 右边 是 程序 13-13 的 准确 率 变化 图 ， 可 以 看 到 ， 随 
着 卷 积 核 数 目的 增加 ,准确 率 上 升 的 速度 也 是 非常 快 , 而 且 相 对 于 卷 积 核 较 少 的 图 来 说 , 此 时 
的 曲线 波动 也 较 少 ， 即 准确 率 在 一 个 较 小 的 范围 内 浮动 ， 这 是 模型 构建 所 需要 的 。 

此 时 再 换 一 个 思路 ， 如 果 将 全 连接 层 的 数目 增加 一 层 ， 那 么 对 准确 率 的 影响 如 何 ? 


【程序 13-14】 
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程序 13-14 中 增加 了 一 个 全 连接 层 ， 即 在 原 有 的 全 连接 1024 个 神经 元 参数 之 后 又 新 加 入 
一 个 128 数目 的 神经 元 隐藏 层 ， 可 以 看 到 结果 如 图 13-20 所 示 。 


J 
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图 13-20 ”全 连接 层 变化 时 准确 率 变化 图 


此 时 可 以 看 到 ,增多 了 全 连接 层 的 个 数 ， 反 而 使 得 准确 率 上 升 缓慢 ， 并 且 准 确 率 的 波动 幅 
度 也 变 得 更 大 ， 因 此 可 以 说 这 个 增加 相对 于 原 有 模型 来 说 是 失败 的 。 
还 有 一 种 变化 的 方法 就 是 修改 卷 积 层 和 池 化 层 的 数目 ， 这 点 请 读者 自行 完成 并 验证 。 
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本 .4 本 章 小 结 


本 章 主 要 介绍 了 卷 积 神经 网 络 的 基本 结构 和 模型 的 搭建 .首先 介绍 了 其 中 最 重要 的 2 个 基 
本 理念 一 一 卷 积 和 池 化 。 在 卷 积 和 池 化 中 主要 介绍 了 这 2 个 理论 的 基本 原理 和 实现 方法 , 并 使 
用 Python 对 其 进行 了 程序 设计 和 使 用 TensorFlow 自 带 的 函数 对 其 进行 处 理 。 特 别 是 
TensorFlow 自 带 的 卷 积 和 池 化 函数 ， 这 在 后 面 章节 中 将 使 用 得 非常 频繁 。 

LeNet 结构 是 最 经 典 的 卷 积 神经 网 络 结构 , 在 这 里 使 用 这 个 模型 创建 了 第 一 个 TensorFlow 
程序 ， 从 结果 上 来 看 ， 这 个 最 经 典 的 模型 可 以 达到 99% 的 识别 率 ， 这 是 非常 好 的 结果 。 

为 了 给 以 后 的 内 容 打 下 基础 , 这 里 对 卷 积 神经 网 络 的 参数 做 了 多 次 修改 , 从 修改 后 的 结果 
上 来 看 ， 卷 积 神经 网 络 在 模型 被 设计 出 来 以 后 , 更 多 的 要 做 的 工作 是 参数 的 调整 ， 这 些 都 是 在 
后 面 的 学 习 中 需要 掌握 的 内 容 。 

本 章 主要 介绍 这 些 基 本 内 容 , 但 是 没有 涉及 卷 积 计算 和 池 化 计算 的 推导 , 这 也 是 非常 重要 
的 一 个 内 容 ， 由 于 推导 原理 过 于 复杂 , 不 需要 读者 掌握 ,在 下 一 章 中 笔者 将 对 其 进行 公式 演示 
和 推导 ， 供 感 兴趣 的 读者 参考 。 
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第 14 章 
< 卷 积 神经 网 络 公式 推导 与 纹 用 > 


前 一 章 对 卷 积 的 基础 概念 和 理论 做 了 一 个 介绍 ,主要 是 通过 讲解 和 图 示 的 形式 对 其 做 出 说 
明 , 并 使 用 Python 语言 和 TensorFlow 框架 实现 了 卷 积 和 池 化 的 运算 。 但 是 在 卷 积 神经 网 络 中 ， 
卷 积 和 池 化 的 运用 仅仅 是 卷 积 神经 网 络 前 向 传播 的 一 个 方面 , 和 反馈 神经 网 络 一 样 , 对 于 其 中 
权重 的 更 新 才 是 真正 的 重点 。 

本 章 中 ， 笔 者 将 首先 复习 在 反馈 神经 网 络 中 的 BP 算法 ,之 后 使 用 数学 方法 推导 卷 积 神经 
网 络 中 的 卷 积 层 权 重 更 新 的 方法 ， 这 也 是 卷 积 神经 网 络 最 为 核心 的 内 容 。 

本 章 将 使 用 大 量 的 数学 公式 , 仅 供 有 基础 、 有 能 力 以 及 有 意愿 的 读者 学 习 ,， 其 他 读者 可 以 
直接 略 过 本 章 并 不 影响 对 后 续 内 容 的 学 习 。 


反馈 神经 网 络 算法 


-个 典型 的 卷 积 神经 网 络 , 如 前 面 使 用 的 LeNet 所 见 ， 开 始 阶段 都 是 卷 积 层 以 及 池 化 层 的 
相互 交替 使 用 ， 之 后 采用 全 连接 层 将 卷 积 和 池 化 后 的 结果 特征 全 部 提取 进行 概率 计算 处 理 。 

在 具体 的 误差 反馈 和 权重 更 新 的 处 理 上 , 不 论 是 全 连接 层 的 更 新 还 是 卷 积 层 的 更 新 , 使 用 
的 都 是 经 典 的 反馈 神经 网 络 算法 , 这 种 方法 将 原本 较为 复杂 的 、 要 考虑 长 期 的 链 式 法 则 转化 为 
只 需要 考虑 前 后 节点 答 入 和 输出 误差 对 权重 的 影响 , 使 得 当 神经 网 络 深度 加 大 时 能 够 利用 计算 
机 计算 ， 以 及 卷 积 核 在 计算 过 程 中 产生 非常 多 的 数据 计算 。 

为 了 强调 重要 性 ， 笔 者 在 这 里 定义 一 个 参数 56, ， 称 为 敏感 度 。 敏 感度 的 定义 是 ， 当 前 输 
出 层 的 误差 对 该 层 输入 的 偏 导数 。 请 读者 一 定 牢记 这 个 参数 名 和 定义 。 














14.1.1 经 典 反馈 神经 网 络 正 向 与 反 向 传播 公式 推导 

前 面 已 经 说 到 , 经 典 的 反馈 神经 网 络 主要 包括 3 个 部 分 : 数据 的 前 向 计算 、 误差 的 反 向 传 
播 以 及 权重 的 更 新 ， 其 具体 使 用 说 明 如 下 。 

1. 前 向 传播 算法 

对 于 前 向 传播 的 值 传 递 ， 隐 藏 层 输出 值 定义 如 下 : 
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EA La 4; 
be = (a ) 
其 中 ， 革 ,是 当前 节点 的 输入 值 ，1W 是 连接 到 此 节点 的 权重 ，a 是 输出 值 。f 是 当前 阶 
段 的 激活 函数 ，b 为 当年 节点 的 输入 值 经 过 计算 后 被 激活 的 值 。 
对 于 输出 层 ， 定 义 如 下 : 
a = pb x a 


有 对 所 有 输入 值 进 行 权 重 





其 中 ， 历 ,为 输入 的 权重 ，b 为 输入 到 输出 节点 的 输入 值 。 这 上 
计算 后 求 得 和 值 ， 将 其 作为 神经 网 络 的 最 后 输出 值 a 。 





2. 反 向 传播 算法 
与 前 向 传播 类 似 ， 需 要 首先 定义 两 个 值 9, 与 5 : 
0 = = 
a 
DL 
2 一 0a” 


其 中 ，5 为 输出 层 的 误差 项 ， 其 计算 值 为 真实 值 与 模型 计算 值 之 间 的 差 值 。 了 是 计算 值 ， 
了 是 输出 真实 值 。 5 为 输出 层 的 误差。 








二 对 于 6 与 6 刀 来 说 ， 无 论 定义 在 哪个 位 置 ， 都 可 以 看 作 当前 的 输出 值 对 于 输入 值 的 梯度 
计算 。 





所 谓 的 神经 网 络 反馈 算法 , 就 是 逐 层 地 将 最 终 误差 进行 分 解 , 即 每 一 层 只 与 下 一 层 打交道 
(图 14-1 所 示 ) 。 有 鉴于 此 ， 可 以 假设 每 一 层 均 为 输出 层 的 前 一 个 层级 ， 通 过 计算 前 一 个 层 


级 与 输出 层 的 误差 得 到 权重 的 更 新 。 





14-1 权重 的 逐 层 反 向 传导 
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因此 反馈 神经 网 络 计算 公式 定义 为 : 








OL 、6a' 二 
7 


= 06, x Dm x (a ) 
= EO a 





即 当前 层 输出 值 对 误差 的 梯度 可 以 通过 下 一 层 的 误差 与 权重 和 输入 值 的 梯度 乘积 获得 .在 
公式 习 帮 x 6 x 了 ”(a9) 中 ，6, 阁 为 输出 层 ， 则 可 以 通过 5，= 到 = (y 一 7) 求 得 ; 


k 


而 6 为 非 输 出 层 时 ， 则 可 以 使 用 逐 层 反馈 的 方式 求 得 6, 的 值 。 








医改 这 里 读者 千 万 要 注意 ， 对 于 ,与 64 来 说 ， 其 计算 结果 都 是 当前 的 输出 值 对 于 输入 值 的 
| 梯度 计算 ， 是 权重 更 新 过 程 中 一 个 非常 重要 的 数据 计算 内 容 。 








或 者 换 一 种 表述 形式 将 上 面 的 公式 表示 为 : 
5 = Dh 6 xf' (ei) 
通过 更 为 泛 化 的 公式 把 当前 层 的 输出 对 输入 的 梯度 计算 转化 成 求 下 一 个 层级 的 梯度 
计算 值 。 


3. 权重 的 更 新 


反馈 神经 网 络 计算 的 目的 是 对 权重 的 更 新 。 与 梯度 下 降 算法 类 似 , 其 更 新 可 以 仿照 梯度 下 
降 对 权 值 的 更 新 公式 : 


0=0-a(f(0) -yx 
即 : 


Eo 1 
Wi;=W; +QxoO, XX, 


bi=b;+Qxo) 
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其 中 , 产 表 示 为 反 向 传播 时 对 应 的 节点 系数 ， 通 过 对 5 的 计算 来 更 新 对 应 的 权重 值 。 


14.1.2” 卷 积 神经 网 络 正 向 与 反 向 传播 公式 推导 


前 面 已 经 说 到 , 经 典 的 反馈 神经 网 络 主要 包括 3 个 部 分 , 数据 的 前 向 计算 、 误 差 的 反 向 传 
播 以 及 权重 的 更 新 ， 过 程 如 图 14-2 所 示 。 








图 14-2 权重 的 逐 层 反 向 传导 
可 以 看 到 每 个 层 /假设 是 卷 积 或 者 池 化 层 的 一 种 ) 都 会 接 一 个 下 采样 层 1+1。 对 于 反馈 
神经 网 络 来 说 ， 要 想 求 得 层 ! 的 每 个 神经 元 对 应 的 权 值 更 新 ， 就 需要 先 求 层 /的 每 一 个 神经 节 
点 的 灵敏 度 56, 。 简 单 来 看 ， 这 里 总 体 只 有 以 下 几 个 权重 以 及 数值 需要 在 传递 的 过 程 中 进行 计 
算 ， 即 : 


@ 输入 层 - 卷 积 层 

@ ”着 积 层 - 池 化 层 

@” 池 化 层 一 全 连接 层 

@ ”全 连接 层 - 输 出 层 

这 是 正 向 的 计算 ， 而 当权 重 更 新 时 ， 需 要 对 其 进行 反 向 更 新 ， 即 : 

@ 输出 层 - 全 连接 层 

@ ”全 连接 层 - 池 化 层 

@ 池 化 层 - 卷 积 层 

@ 着 积 层 - 输 入 层 

相对 于 反馈 神经 网 络 ， 卷 积 神经 网 络 在 整个 模型 的 构成 上 是 分 解 成 若干 个 小 的 步骤 进行 ， 
因此 对 其 进行 求 导 更 新 计算 最 好 的 方法 也 是 逐步 进行 计算 。 

首先 需要 设 定 的 是 损失 函数 ， 在 前 面 的 例子 中 ， 由 于 采用 的 是 one-hot 方法 ， 因 此 在 对 输 
出 层 进行 误差 计算 时 采用 的 是 交叉 炉 的 函数 ， 公 式 如 下 : 
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Loss = —y log(f(x)) 
这 个 是 最 基本 的 ， 下 面 开始 将 依次 由 输出 到 输入 分 阶段 解读 权重 更 新 的 方法 与 公式 。 
1. 输出 层 反馈 到 全 连接 层 的 反 向 求 导 
对 于 输出 层 来 说 ， 损 失 函 数 是 由 上 面 的 交叉 炉 函 数 作为 计算 的 。 由 于 one-hot 方法 大 多 数 
的 值 为 0， 仅 仅 有 1 个 值 为 1， 首先 求 得 的 交叉 炉 为 : 
Loss(f(x),y) = -Dy log (f(x)) 
= —(0 x log (f(x) +0 x log(f(x,)... 
+1 x log(f(x, 1) + 0 x log(f(x,)) 
= —log(f(x,)) 


对 于 大 多 数 的 0 值 乘 以 任何 数 都 为 0, 而 留 下 的 是 值 为 1 与 所 计算 的 那个 真实 值 对 应 的 乘 
积 ， 如 图 14-3 所 示 。 


AS 


(sn 


DB 


OLLI00 
O000000000 


图 14-3 损失 函数 的 计算 
使 用 此 种 规则 可 以 得 到 此 时 的 损失 值 为 : 
Loss = -(y — log(f(x)) 


其 中 ，y 为 真实 的 样本 等 于 1 的 那个 值 ，log (f(x) ) 为 模型 计算 出 的 交叉 和 的 值 ， 其 差 
值 为 所 求 得 误差 额度 。 简 化 一 下 ， 由 于 了 在 one-hot 中 始终 为 1， 而 为 0 的 值 不 参与 计算 ， 因 
此 可 以 得 到 : 





Loss = -(L ~ log (f(x)) 
由 上 述 公式 可 以 知道 ， 如 果 最 终 的 输出 层 采 用 的 是 softmax， 那 么 对 于 结果 会 采用 交叉 炉 
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的 形式 去 计算 损失 函数 ,最 后 一 层 的 误差 敏感 度 就 是 卷 积 神经 网 络 模型 输出 值 与 真实 值 之 间 的 
差 值 。 
那么 根据 损失 函数 对 权 值 的 偏 导 数 ， 可 以 求 得 在 全 连接 层 权重 更 新 的 计算 公式 为 : 





OLoss 1 ， 
二 = — f(x)) x f(z) + AW 
其 中 ，ftx) 是 激活 函数 ， 歼 为 上 1 层 到 1 层 之 间 的 权重 。 
而 输出 层 的 偏 导 数 为 : 
OLoss 





1 
pe = — f(x)) 


这 里 的 计算 方法 和 经 典 的 反馈 神经 网 络 相 似 ， 就 不 做 过 多 的 解释 了 。 
2. 当 池 化 层 反馈 到 卷 积 层 的 反 向 求 导 
从 正 向 来 看 ， 假 设 1 (小 写 的 L)》 层 为 卷 积 层 ， 而 片 1 层 为 池 化 层 ， 如 图 14-4 所 示 。 





14-4” 卷 积 层 到 池 化 层 


此 时 假设 : 
池 化 层 的 敏感 度 为 6 人 
卷 积 层 的 敏感 度 为 ， 5 


则 两 者 的 关系 可 以 近似 地 表达 为 : 
0 = pool1(6,") 米 ha)’ 


这 里 的 * 表 示 的 是 均值 的 点 对 点 乘 ， 即 对 应 位 置 元 素 的 乘积 。 

对 于 池 化 层 +1 中 的 每 个 节点 元 素 是 由 卷 积 层 /中 多 个 节点 共同 计算 得 到 的 ， 因 此 片 1 层 
的 敏感 度 也 是 由 /1 层 中 的 敏感 度 共同 产生 的 。 

假设 卷 积 层 ! 的 大 小 为 4X4， 使 用 的 池 化 区 域 大 小 为 2X2， 经 过 计算 得 到 的 池 化 层 的 大 
小 为 2X2， 如 果 此 时 池 化 层 的 敏感 度 误差 为 : 
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如 果 按 照 此 时 是 mean-pooling 方法 进行 反馈 运算 ， 则 首先 需要 将 片 1 池 化 层 扩展 到 /7 层 大 
小 ， 即 卷 积 层 的 4X4 大 小 ， 并 且 使 其 值 为 等 值 分 布 ， 如 图 14-5 所 示 。 





图 14-5 池 化 层 敏感 度 的 均值 化 


同时 对 于 mean-pooling 方法 ， 为 了 保证 在 反 向 传播 时 各 层 之 间 的 误差 总 和 不 变 ， 因 此 在 
扩展 +1 池 化 层 之 外 ， 还 需要 对 池 化 层 中 每 个 值 进 行 平 摊 处 理 。 最 后 的 结果 如 图 14-5 中 右 侧 
图 所 示 。 

如 果 片 1 池 化 层 是 max-pooling， 那 么 在 前 向 计算 时 就 需要 记录 相对 应 的 最 大 值 位 置 ， 这 
里 假设 后 的 池 化 层 最 大 值 位 置 如 图 14-6 所 示 。 





14-6 ”max-pooling 池 化 层 的 反馈 


3. 当 卷 积 层 反馈 到 池 化 层 的 反 向 求 导 
当 1 层 为 池 化 层 ， 而 片 1 层 为 卷 积 层 时 ， 如 图 14-7 所 示 。 
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图 14-7 卷 积 层 反馈 到 池 化 层 的 反 向 求 导 


假设 第 1 层 池 化 层 有 n 个 通道 , 即 及 n 张 特征 图 ([width,height,n])。 而 片 1 卷 积 层 中 有 m 个 
特征 值 。 此 时 ， 如 果 / 层 池 化 层 中 每 个 通道 都 有 其 对 应 的 敏感 度 误差 ， 则 其 计算 依据 为 1+1 层 
卷 积 层 中 所 有 卷 积 核 元 素 的 敏感 度 之 和 。 


2 = >)@H 
其 中 ，@ 是 矩阵 的 卷 积 操作 ， 但 是 不 同 于 卷 积 层 前 向 传播 时 的 相关 度 计 算 。 求 ! 层 池 化 
层 对 Ht1 层 的 敏感 度 是 全 卷 积 操作 。 
使 用 一 个 简单 的 例子 进行 说 明 ， 第 ! 层 池 化 层 是 某 3X3 大 小 的 通道 图 ， 如 果 第 1+1 卷 积 
层 有 2 个 卷 积 核 ， 核 大 小 为 >X2， 则 在 前 向 传播 结束 后 会 生成 2 个 大 小 为 2X2 的 卷 积 图 。 


14-8 是 池 化 层 反馈 到 卷 积 层 的 反 向 求 导 。 需 要 注意 的 是 ， 图 14-8 中 的 卷 积 层 数据 并 不 
是 卷 积 计算 的 结果 ， 而 是 卷 积 层 的 敏感 度 。 





14-8 池 化 层 反馈 到 卷 积 层 的 反 向 求 导 








邯 可 以 将 卷 积 层 中 的 数据 视 为 输入 数据 进行 计算 。 | 
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之 后 开始 进行 重新 卷 积 计算 ， 这 里 计算 方法 就 是 先 将 卷 积 层 敏感 度 padding 后 采用 full 模 
式 重新 扩充 为 4X4 大 小 ， 如 图 14-9 所 示 。 





14-9 ” 卷 积 核 敏感 度 的 padding 操作 


之 后 根据 扩充 后 的 /+1 层 卷 积 层 敏感 度 和 对 应 的 卷 积 核 重 新 计算 ! 层 池 化 层 的 敏感 度 ， 如 
14-10 所 示 。 







司 司 司 司 
as 。 国 
EE 
本 而 加 癌 





14-10 重新 计算 的 敏感 度 


中 需要 注意 的 是 ， 这 里 是 星 乘 卷 积 的 计算 ， 即 要 把 卷 积 核 翻 转 180” 与 padding 后 的 池 化 
层 进 行 卷 积 计算 。 
最 后 是 ! 层 池 化 层 敏感 度 的 计算 ， 即 前 面 公式 的 最 终结 果 : 
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5 = 7 (0)®h, 
用 图 形 表示 为 图 14-11。 





图 14-11 最 终 池 化 层 敏感 度 的 计算 
这 样 就 求 得 了 卷 积 层 1+1 反馈 到 池 化 层 ! 层 的 敏感 度 。 
从 本 质 上 来 说 ， 这 里 还 是 反馈 神经 网 络 的 计算 。 即 
6) = 2 (0) ® hk, 
1 层 的 敏感 度 等 于 第 +1 层 的 敏感 度 乘 以 两 者 之 间 的 权重 再 求 和 。 只 不 过 这 里 的 权 值 被 改 
为 卷 积 核 ， 且 在 计算 过 程 中 有 大 量 重 各 。 
4. 通过 计算 得 到 的 敏感 度 更 新 卷 积 神经 网 络 中 的 权重 


前 面 已 经 计算 了 在 卷 积 神经 网 络 中 所 有 出 现 的 层 中 的 敏感 度 , 对 于 卷 积 神经 网 络 来 说 , 其 
中 特殊 的 也 就 是 卷 积 层 和 池 化 层 的 权重 更 新 较为 难 计算 , 而 这 些 层 的 计算 可 以 通过 权重 所 连接 
的 前 后 节点 的 敏感 度 计算 得 到 。 因 此 ， 最 后 一 步 就 是 通过 敏感 度 对 权重 的 更 新 。 

由 前 面 的 反 向 反馈 网 络 可 以 知道 ,对 于 任何 一 个 神经 网 络 都 可 以 通过 1 层 和 第 /+1 层 的 输 
入 值 和 敏感 度 求 得 其 权 值 和 偏 置 的 偏 导 数 。 


OLoss 





= x 6 
OK, 
OLoss rl 
3 = B (07") 
了 7 


其 中 ，“。 表示 的 是 矩阵 相 乘 之 间 的 操作 。 
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举例 来 说 ， 对 于 已 有 的 ! 层 输入 数据 值 为 : 








权 值 的 更 新 是 使 用 了 : 

OLoss _ ,gi 

op = Xx" 0 
需要 注意 的 是 ， 在 卷 积 运算 的 过 程 中 ，3 X3 的 敏感 度 是 先 翻 转 之 后 再 进行 卷 积 计 算 。 
对 于 偏 置 值 的 计算 : 


OLoss A 


i 


根据 公式 可 以 知道 ， 偏 置 值 的 导数 为 片 1 层 敏感 度 之 和 ， 即 
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OLoss ge 
一 = 2 (0) 
0b,, “ 


=0.3+0.6+0.3+1+2+1+0.8+1.6+0.8 
= 8.4 


4 .2 使 用 卷 积 神经 网 络 分 辨 IFAR-10 数据 集 


在 前 面 的 介绍 中 , 使 用 卷 积 神经 网 络 对 MNIST 数据 集 做 了 一 个 介绍 。MNIST 数据 集 是 手 
写 数字 的 识别 库 ， 使 用 卷 积 神经 网 络 对 其 进行 分 辩 和 处 理 是 一 种 很 好 的 商业 应 用 。 

MNIST 仅 限 于 对 手写 数字 的 识别 ， 而 且 手写 数字 相对 于 自然 物体 和 图 片 非常 简单 ， 也 缺 
少 相应 的 噪声 和 变幻 。 

本 节 将 使 用 卷 积 神经 网 络 对 CIFAR-10 数据 集 进 行 验证 , 同时 会 比较 不 同 参数 作用 下 卷 积 
神经 网 络 对 准确 率 产 生 的 影响 。 


14.2.1 CIFAR-10 数据 集 下 载 与 介绍 


CIFAR-10 是 由 神经 网 络 的 先驱 和 大 师 Hinton 的 两 名 学 生 Alex Krizhevsky 和 1lya Sutskever 
整理 的 一 个 基于 现实 物体 , 通过 所 拍摄 的 照片 进行 物体 识别 的 数据 集 。 这 个 数据 集 项 目 是 为 了 
推广 和 加 速 深度 学 习 所 创建 的 。 目 前 加 拿 大 政府 和 Cifar 研究 所 的 资金 支持 以 及 号 召 下 集结 了 
不 少 计 算 机 科学 家 、 生 物 学 家 、 电 气 工 程 师 、 神 经 科学 家 、 物 理学 家 、 心 理学 家 ， 加 速 推动 了 
深度 学 习 的 进程 。 

CIFAR-10 的 官网 链接 为 http:/www.cs.toronto.edu/~kriz/cifar.html， 如 图 14-12 所 示 。 


Or enoOrSx+ 





Back 





The CIFAR-10 and CIP bsets of the 80 sillion tiny innges dataset. They vere collected by Alex Krizhevsky, Vinod Neir, and Geoffrey 
Hinton 


The CIFAR-10 dataset 


The CIFAR-10 dat 














如 且 要 四 因 芒 局 济 了 错 恨 


图 14-12 CIFAR-10 网 站 
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从 网 站 首页 可 以 看 到 ， 这 里 提供 了 10 个 分 类 的 现实 物体 的 照片 (图 14-13) 。 与 前 面 所 
讲 的 成 熟 的 人 工 手写 识别 相 比 , 现实 物体 识别 挑战 巨大 , 而 且 图 片 数据 中 含有 大 量 特征 、 噪 声 ， 
识别 物体 比例 不 一 ， 也 加 大 了 识别 的 难度 ， 使 其 非常 具有 挑战 性 。 


| | -| 
“me 辐 加 而 时 国明 经 贺 妓 志 
“时 面 回国 晤 多 加 





省 
ship = 二 
dl |. 


14-13 ”CIFAR-10 数据 分 类 
本 小 节 将 要 使 用 的 CIFAR-10 版 本 如 图 14-14 所 示 。 





半 让 十 让 
六 本 园 图 际 辜 则 硬 





If you re going to use this dataset，please cite the tech report at the bottom of this page. 
Version Size mi5sum 

CIFAR-10 python version 163 WB <c58f30108f718f92721af3b95e74349a 
CIFAR-10 Matlab version, 175 WB 70270af85842c9e89bb428ec9976c926 


IFAR-10 binary version (suitable for C programs) 162 了 c32ald4ab5d03f1284b67883e8d87530 





14-14 ”CIFAR-10 下 载 版 本 


在 本 例 中 将 使 用 TensorFlow 提供 的 数据 打开 方式 去 读 取 数据 集 ， 因 此 建议 读者 下 载 适 用 
于 C 语言 版 本 的 数据 集 ， 打 开 后 如 图 14-15 所 示 。 


cifar-10-batches-bin EECED 
[3 





图 14-15 ”CIFAR-10 下 载 的 数据 包 
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直接 下 载 的 数据 包 如 图 14-15 所 示 , 之 后 将 其 使 用 winrar 再 一 次 打开 , 得 到 的 数据 集 如 图 
14-16 所 示 。 
最 终 建 立 的 数据 文件 夹 的 层次 如 图 14-17 所 示 。 


I™ Ml cnn-tensorflow-cifar10 D’'\workspace\cnn-tensorflow-cifal 
7 Mcifarl0-dataset 
? batches.meta 
) data_batch_1 
? data_batch_2 
) data_batch 3 
2 data_batch_4 
号 data_batch_5 














batches.metatxt 。 data_batch_1bin data_batch 2.bin 。 data_batch 3bin 


data batch abin 。 data_batch_ sbin readmeheml test_batch bin 








; test_batch 
Bcnn-TensorFlow-cifar10, 
14-16 打开 CIFAR-10 的 数据 包 图 14-17 CIFAR-10 数据 包 存 放 层次 


从 图 14-17 中 可 以 看 到 ，CIFAR-10 的 数据 包 放 在 独立 的 文件 夹 下 ， 便 于 所 写 的 程序 进行 
读 写 操作 。 
14.2.2 ”CIFAR-10 模型 的 构建 与 数据 处 理 


首先 是 关于 模型 的 设计 ， 根 据 上 一 章 中 对 MNIST 模型 进行 设计 并 参考 已 取得 较 好 效果 的 
模型 ， 可 以 设计 的 模型 如 图 14-18 所 示 。 





14-18 ”CIFAR-10 数据 模型 图 示 
在 此 模型 中 , 首先 是 数据 集 之 后 接 2 个 卷 积 层 作为 特征 提取 的 通道 , 卷 积 层 包含 池 化 层 与 
区 域 归 一 层 , 加 入 这 些 层 的 目的 是 为 了 能 够 在 特征 提取 时 , 保证 提取 出 能 够 充分 反映 出 图 形 质 
量 的 数据 。 最 后 跟随 的 2 个 全 连接 层 起 到 一 个 “分 类 器 ”的 作用 ， 将 所 提取 的 特征 映射 到 相应 
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的 空间 。 
此 外 ， 还 有 一 些 更 多 的 细节 在 模型 使 用 时 会 详细 介绍 。 
14-19 所 示 的 是 对 CIFAR-10 数据 集 网 页 中 的 数据 结构 介绍 。 


Loaded in this way, each of the batch files contains a dictionary with the following elements: 
。* data 一 a 10000x3072 numpy array of uimss, Each row of tbe sy stores & 32x32 colour inage. The Et 1024 entries contain the red channel elves 
te pe a De green, and the final a the blve. The is stored in row-major order, so that the first 32 ed 


values of the first row te 
Se Tist of 10000 nabers in the tanee 0-9. The iumber at index 1 indicates the label of the Jth image in the arrey eta, 


14-19 ”CIFAR-10 数据 结构 


可 以 看 到 ,数据 集中 的 数据 分 成 了 两 部 分 。 第 一 部 分 是 特征 部 分 ,使 用 一 个 [10000,3072] 
的 uint8 的 矩阵 进行 存储 ， 每 一 行 向 量 都 是 一 幅 3X3 大 小 的 3 通道 图 片 ， 构 成 的 格式 如 
[3,3,3]。 第 二 部 分 是 标签 部 分 , 使 用 一 个 10000 数据 的 list 进行 存储 , 每 个 list 对 应 的 是 0~9 
中 的 一 个 数字 , 对 应 于 一 个 物品 分 类 ， 如 图 14-20 所 示 。 另 外 ,对 于 Python 读 取 的 数据 集 ， 
还 有 一 个 标签 称 为 “label_names”， 例 如 label_names[0] == "airplane"、 label_names[1] == 
"automobile" 等 。 




















1 2 ee | 下 





























图 14-20 ”CIFAR-10 数据 的 矩阵 存储 
对 于 具体 的 数据 读 取 ，CIFAR-10 网 页 也 提供 了 相应 的 代码 : 





首先 打开 存储 的 文件 夹 ， 之 后 使 用 pickle 的 load 函数 从 数据 中 载 入 文件 ， 这 里 返回 的 是 
一 个 字典 。Python 中 的 字典 是 包含 key 与 value 的 数据 格式 ， 因 此 可 以 知道 ，dict 中 就 是 包含 
data 与 labels 的 数据 字典 。 

此 外 ， 返 回 的 lables 是 一 个 包含 0~9 数字 的 list 列表 。 
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在 前 面 的 编程 中 ， 所 需 的 labels 采用 one-hot 方法 ， 采 用 稀 玻 性 列表 法 ， 即 10 个 列表 数字 
中 只 有 对 应 的 那个 值 为 1， 而 其 他 值 为 0， 因 此 需要 将 提供 的 list 格式 转换 成 对 应 的 one-hot 
矩阵。 代码 如 下 : 





这 里 需要 说 明 的 是 ， 在 上 面 的 代码 中 : 


这 里 使 用 的 是 Python 特有 的 迭代 方法 ， 在 生成 的 矩阵 中 使 用 np.arrange 方法 就 是 将 数据 
迭代 到 当前 的 列表 中 ， 并 将 列表 值 赋予 1。 

下 面 是 整体 数据 的 读 取 ， 由 于 下 载 后 解压 缩 的 数据 文件 是 以 batch 分 布 存储 的 ， 因 此 需要 
将 其 进行 读 取 和 链接 ， 代 码 如 下 : 








这 里 使 用 unpick 函数 依次 读 取 了 5 个 batch 中 的 数据 , 生成 的 是 5 个 dict 格式 文件 , 而 其 
中 的 数据 是 以 [data,labels] 格 式 存放 的 , 之 后 链接 对 应 的 5 个 特征 数据 和 标签 数据 生成 最 终 的 训 
练 集 。 采 用 前 5000 个 数据 作为 测试 集 进行 使 用 。 
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下 面 是 对 于 参数 的 设置 , 由 于 在 模型 建立 的 时 候 ， 对 所 包含 的 参数 已 经 做 了 设 定 ， 因 此 在 
此 次 程序 编写 时 将 其 设 定 的 值 以 常数 的 形式 进行 固定 ， 这 样 做 的 好 处 是 便于 在 后 期 进行 修改 ， 
代码 如 下 : 





可 以 看 到 ，n_features 被 设 定 成 了 3072， 这 个 结果 是 : 


因为 每 个 图 片 大 小 为 32X32， 包 含 3 个 通道 ， 因 此 最 终 的 特征 值 大 小 为 3072。 
下 面 是 对 数据 输入 和 最 终结 果 的 占 位 符 的 设 定 : 





这 里 设 定 的 矩阵 ， 第 一 个 是 None， 代 表 对 输入 的 行 数 不 确 定 ， 这 样 写 的 好 处 是 可 以 自由 
设 定 输入 数据 行 数 ， 便 于 批量 输入 数据 或 者 逐个 输入 数据 。 

下 面 是 卷 积 层 的 确定 ， 同 样 对 于 已 经 确定 的 模型 来 说 ， 这 里 只 需要 设 定 每 层 模型 的 参数 。 
为 了 统一 管理 ， 参 数 设置 的 方法 采用 字典 的 方式 ， 即 每 个 key 对 应 于 一 个 value 进行 处 理 。 





前 面 已 经 说 了 ， 对 于 数据 的 重 构 ， 需 要 将 其 按 要 求 格式 进行 重 构 ， 代 码 如 下 : 


EEC 
image = tE:reshapelk [1 32 32 3) 

这 里 对 输入 的 图 像 进行 了 重 构 ， 将 其 转化 为 需要 的 格式 。 下 面 就 是 卷 积 层 的 编写 ,可 以 看 
到 ， 使 用 的 是 TensorFlow 提供 的 卷 积 函数 和 池 化 函数 。 代 码 如 下 








上 面 根 据 模型 建立 了 多 个 卷 积 层 和 池 化 层 。 值 得 注意 的 是 ， 这 里 使 用 了 一 个 新 的 概念 , 即 
LRN 层 。LRN 是 局 部 响应 归 一 化 层 的 意思 ， 作 用 是 完成 一 种 “临近 抑制 ”操作 ， 对 局 部 输入 
区 域 进行 归 一 化 ， 是 全 部 输入 值 都 除 以 一 个 基础 系数 再 计算 出 的 均值 。 


LRN 在 早期 的 深度 学 习 中 有 较为 重要 的 影响 ， 但 是 随 着 Batch Normalization 算法 的 提出 ， 
LRN 的 作用 已 经 大 大 不 如 以 前 了 ， 这 里 仅 供 了 解 。 





模型 中 使 用 了 2 个 卷 积 层 和 2 个 池 化 层 ， 卷 积 层 中 使 用 SAME 格式 ， 即 输出 的 图 像 数据 
和 矩阵 与 输入 一 样 大 小 。 

而 对 于 全 连接 层 的 写法 如 下 , 这 里 使 用 的 是 3 层 全 连接 网 络 , 而 每 层 都 使 用 了 不 同 的 激活 
函数 。 
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最 后 是 损失 函数 的 确定 , 这 里 采用 交叉 焙 函 数 作为 损失 函数 , 而 评估 模型 使 用 的 是 对 比 计 
算 的 方法 ， 在 前 面 章 节 已 经 介绍 过 。 





最 后 是 模型 的 训练 部 分 ,采用 的 是 批量 梯队 下 降 算法 ,根据 给 定 的 数目 批量 生成 数据 结果 。 





可 以 看 到 , 这 里 使 用 的 方法 是 将 整体 数据 集 的 个 数 与 预先 设 定 的 批量 大 小 相 除 , 得 到 的 结 
果 作 为 批 处 理 的 数目 进行 训练 。 
最 终 模型 代码 如 程序 14-1 所 示 。 


【程序 14-1】 
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根据 计算 机 不 同 的 运行 速率 ， 可 以 得 到 运行 时 间 。 在 笔者 的 计算 机 中 ， 大 概 90 秒 运行 一 
个 周期 ， 具 体 结 果 请 读者 自行 打印 完成 。 


14.2.3 ”CIFAR-10 模型 的 细节 描述 与 参数 重 构 


本 小 节 将 对 模型 参数 做 更 细致 的 讲解 , 主要 是 对 模型 的 参数 进行 调节 。 神经 网 络 的 模型 在 
设计 完成 后 往往 并 不 需要 很 大 的 变动 ， 要 做 的 更 多 的 是 在 使 用 过 程 中 对 参数 的 调节 。 

1. 调节 学 习 率 

一 般 来 说 ， 首 先 需 要 调节 的 是 学 习 率 。 学 习 率 的 不 同 会 对 模型 的 收敛 有 很 大 的 影响 ， 同 样 
的 模型 采用 不 同 的 学 习 率 会 表现 得 非常 不 同 。 但 是 学 习 率 的 调节 往往 都 是 靠 经 验 进行 设置 , 这 
里 笔者 也 没有 更 好 的 方法 ， 但 是 笔者 在 使 用 时 一 般 都 会 首先 将 学 习 率 设置 成 le-4 左右 ， 即 从 
0.0001 开始 ， 逐 步 增 大 学 习 率 。 

在 此 模型 中 学 习 率 设置 成 le-4， 读 者 可 以 根据 需要 对 学 习 率 进行 设置 ， 并 可 参考 模型 拟 
合 的 结果 。 


2. 对 于 模型 过 拟 合 的 处 理 


对 于 深度 学 习 模 型 的 设计 ， 随 着 计算 机 硬件 资源 的 提高 ,模型 也 设计 得 越 来 越 深 ， 同 时 神 
经 元 的 个 数 不 断 增加 。 这 样 做 的 好 处 是 可 以 对 复杂 的 情况 进行 处 理 , 但 是 在 这 种 情况 下 , 模型 
在 强行 对 函数 进行 拟 合 的 过 程 中 更 容易 产生 过 拟 合 。 

为 了 防止 或 减少 过 拟 合 的 产生 ， 程 序 设 计 人 员 采 用 了 大 量 的 办 法 。 本 例 中 使 用 LRN 层 也 
是 防止 过 拟 合 的 手段 之 一 。 除 此 之 外 ， 常 用 的 防止 过 拟 合 的 手段 还 有 Dropout、 对 数据 集 使 用 
Batch Normilization"， 以 及 增 大 数据 集 。 例 如 ， 图 像 裁 剪 、 对 称 变换 、 旋 转 平移 等 都 可 以 让 模 
型 在 验证 集 上 的 表现 更 好 。 


3. 激活 函数 选择 


前 面 已 经 说 过 ， 常 用 的 激活 函数 使 用 的 是 sigmoid 和 relu， 在 本 例 中 ， 所 有 的 层级 〈 卷 积 
+ 全 连接 ) 都 是 使 用 relu 作为 激活 函数 。 如 果 有 读者 对 其 感 兴趣 ， 可 以 尝试 将 relu 函数 替换 成 
sigmoid 函数 进行 处 理 。 

使 用 relu 的 优 缺 点 在 前 面 已 经 做 了 介绍 。 从 relu 图 形 的 分 析 来 看 ， 它 就 是 一 种 受 限 激活 
函数 ， 这 种 函数 在 使 用 中 为 网 络 引入 了 大 量 的 稀 玻 性 ， 至 少 有 一 半 的 神经 元 并 不 会 激活 ， 因 而 
加 速 了 强 特征 的 提取 和 弱 特 征 的 瓦解 ， 增 强 了 学 习 效果 。 
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4. 权 值 的 初始 化 
对 于 sigmoid 网 络 来 说 ， 有 如 下 两 种 固定 的 权重 初始 化 方法 : 
(1) Log-Sigmoid 函数 : 


[-4 x ye 5 这 ys ] 
ViayerInput + LayerQut ViayerInput + LayerOut 
(2) Tanh-Sigmoid 函数 : 
OO)] 
VLa yerInput + LayerOut . VLa yerInput + LayerOQut 


[= 二 六 


以 上 这 两 个 参数 是 使 用 sigmoid 函数 常用 的 设置 。 对 于 relu 函数 来 说 ， 它 用 作 回 归 的 激活 
函数 , 输出 结果 近似 于 正 态 分布 。 因此 在 本 例 中 采用 的 是 随机 正 态 分 布 生成 0 均值、 标准 差 一 
定 的 随机 矩阵 作为 初始 化 参数 , 并 在 计算 过 程 中 逐步 加 大 标准 差 , 使 得 权重 能 够 获得 一 个 弹性 
增加 。 





可 以 看 到 , 这 里 的 权重 随 着 层次 的 逐渐 深入 ,逐步 由 0.001 一 0.01 一 0.1 一 0.1 一 0.1 地 增加 。 
5. 池 化 层 的 选择 
在 前 面 介 绍 池 化 算法 的 时 候 提 到 ， 一 般 池 化 算法 有 两 种 ， 分 别 是 MaxPooling 和 


AvgPooling。 在 本 例 中 使 用 的 是 AvgPooling。 相 对 于 maxPooling 来 说 ，AvgPooling 能 够 提供 
具有 更 小 噪声 的 数据 ， 即 将 原始 图 像 中 的 噪声 降 噪 处 理 。 


14.3 本 章 小 结 


本 章 全 面 介绍 了 卷 积 神经 网 络 的 基本 算法 ,特别 是 对 卷 积 神经 网 络 中 反 向 传播 算法 做 了 一 
个 详尽 的 解释 ， 之 后 通过 示例 回顾 了 卷 积 神经 网 络 的 使 用 方法 ， 借 用 卷 积 神经 网 络 实现 对 
CIFAR-10 数据 集 的 判别 和 参数 做 了 解释 。 

实际 上 深度 学 习 的 模型 已 经 较为 成 熟 , 使 用 得 更 多 的 是 一 些 经 典 的 模型 。 读 者 应 该 首先 党 
握 这 些 经 典 模型 的 使 用 和 一 些 细节 ， 并 在 其 基础 上 根据 实际 情况 做 出 修改 。 
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- 直 以 来 , 对 于 现实 世界 中 的 图 像 辨认 是 计算 机 视觉 研究 的 重 中 之 重 。 为 此 世界 各 地 每 年 
各 种 关于 计算 机 对 图 像 识 别 的 竞赛 层出不穷 , 各 种 论文 和 相关 算法 也 是 大 量 涌 现 ,更 好 地 促进 
了 使 用 计算 机 图 像 辨 认 的 发 展 。 

由 于 基础 和 硬件 资源 受 限 , 计算 机 辨识 能 力 始 终 没 有 获得 突飞猛进 的 发 展 , 最 终 打破 这 个 
僵局 使 计算 机 视觉 发 展 水 平 上 了 一 个 大 台阶 的 是 应 用 卷 积 神经 网 络 发 展 起 来 的 一 个 新 的 实用 
型 网 络 ， AlexNet。 

2012 年 ， 在 ImageNet 上 的 图 像 分 类 challenge 上 Alex 提出 的 AlexNet 网 络 结构 模型 赢得 
了 2012 届 的 图 像 识别 冠军 在 此 基础 上 GoogleNet 和 VGG 同时 获得 了 ImageNet 上 2014 年 的 
好 成 绩 。 

从 下 面 图 15-1 上 可 以 看 到 , AlexNet 是 在 LeNet 上 发 展 起 来 的 应 用 卷 积 神经 网 络 的 一 个 深 
度 学 习 模 型 。 与 LeNet 不 同 的 是 ，AlexNet 使 用 GPU 对 更 多 的 数据 进行 处 理 ， 并 且 首次 引入 
了 Dropout 层 来 处 理 过 拟 合 以 及 使 用 ReLU 替代 sigmoid 来 作为 激活 函数 。 当 然 应 用 这 些 新 技 
术 新 想法 的 结果 也 是 令 人 欣慰 的 。 
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图 15-1 卷 积 神经 网 络 识别 的 发 展 


在 此 基础 上 发 展 了 VGG 网 络 和 NIS 网 络 ， 以 及 使 用 这 2 种 结合 建立 的 ResNet 模型 ， 建 
立 了 有 着 更 深 的 卷 积 、 收敛 和 运算 速度 更 快 的 神经 网 络 模型 。 可 以 说 目前 所 有 比较 成 功 的 神经 
网 络 模型 都 是 来 自 于 AlexNet。 

本 章 将 主要 介绍 AlexNet 的 原理 以 及 应 用 ， 并 使 用 TensorFlow 具体 实现 这 个 神经 网 络 。 











1 5 @ 1 AlexNet 简介 


AlexNet 实际 上 是 从 LeNet 上 发 展 起 来 的 一 个 新 的 卷 积 神经 网 络 模型 。 这 个 模型 比 起 之 前 
我 们 看 到 的 Cifar10 和 LeNet 模型 相对 复杂 一 些 ， 训练 时 间 是 在 两 台 GPU 上 进行 了 一 周 , 后 
期 在 Hinton 的 建议 下 ， 在 全 连接 层 加 入 ReLU 和 Dropout 层 。 


15.1.1 AlexNet 模型 解读 


对 于 这 个 模型 ， 分 解 来 看 ，AlexNet 上 的 一 个 完整 的 卷 积 层 可 能 包括 一 层 convolution、 一 
层 Rectified Linear Units、 一 层 max-pooling、 一 层 normalization。 整 个 网 络 结构 包括 五 层 卷 积 
层 和 三 层 全 连接 层 ， 网 络 的 最 前 端 是 输入 图 片 的 原始 像素 点 ， 最 后 端 是 图 片 的 分 类 结果 。 








潮 图 15-2 有 一 个 特殊 的 地 方 ， 就 是 卷 积 部 分 都 是 画 成 上 、 下 两 块 ， 意 思 是 在 这 一 层 计算 出 

| 来 的 feature map 要 分 开 计算 。 这 样 做 是 因为 当时 在 网 络 设计 时 ， 计 算 机 硬件 条 件 不 足 ， 
好 处 是 能 够 极 大 地 加 快 计算 速度 ,但 是 运算 趋势 已 经 由 单机 计算 发 展 到 分 布 式 计算 , 因此 
这 样 的 分 布 就 没有 太 多 的 必要 了 。 
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15-2 ”AlexNet 模型 
具体 打开 AlexNet 来 看 其 中 每 一 层 的 使 用 。 
1. 第 一 层 : 卷 积 层 
在 这 里 对 层 中 的 数值 进行 解释 ， 其 中 convl 说 明 这 里 输出 为 96 层 ， 使 用 的 卷 积 核 大 小 为 


[11,11]， 而 步 进 为 4。 在 此 之 后 变 为 [55,55] 大 小 、 深 度 为 96 的 数据 。 之 后 进行 一 次 ReLU 激 
活 ， 再 将 输入 的 数据 进行 池 化 处 理 ， 池 化 的 核 大 小 为 3， 每 次 步 进 为 2， 如 图 15-3 所 示 。 








15-3 ”AlexNet 模型 第 1 个 卷 积 层 
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池 化 层 的 步 进 为 2 说 明 这 里 使 用 的 是 重合 池 化 ,重合 池 化 的 作用 是 对 数据 集 的 特征 保留 相 


对 于 一 般 池 化 较 多 , 可 以 更 好 地 反应 特征 现象 。 后 面 就 是 对 数据 的 归 一 化 处 理 , 这 里 使 用 的 是 
特殊 计算 层 一 一 LRN 层 ， 其 作用 是 对 当前 层 的 输出 结果 做 平滑 处 理 ， 如 图 15-4 所 示 。 


\ 


只 


eS 
ee 





b=a/((k+a/ N)D (a)?)4 
此 公式 中 a 是 当前 层 中 需要 计算 的 点 , a 为 缩放 因子 , 为 指数 项 ,这 两 个 均 是 计算 系数 ， 


NN 是 扩展 的 层 数 ， 一 般 建议 选 5 (前 后 2 层 加 本 身 的 1 层 ) 。 
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2. 第 二 层 : 卷 积 层 
如 图 15-5 所 示 。 





15-5 AlexNet 模型 第 2 个 卷 积 层 


3. 第 三 层 : 卷 积 层 
如 图 15-6 所 示 。 


人 


137137256 





15-6 ”AlexNet 模型 第 3 个 卷 积 层 


第 15 章 “” 猜 狗 大 战 一 一 实战 AlexNet 
4. 第 四 层 : 卷 积 层 
如 图 15-7 所 示 。 


“data” 


"data” 


13*13*384 13*13*384 





图 15-7 AlexNet 模型 第 4 个 卷 积 层 


5. 第 五 层 : 卷 积 层 
如 图 15-8 所 示 。 


do 国 
13*13*384 











图 15-8 ”AlexNet 模型 第 5 个 卷 积 层 


6. 第 六 层 : 全 连接 层 


如 图 15-9 所 示 。 
人 9 人 
4096 


图 15-9 ”AlexNet 模型 第 1 个 全 连接 层 


从 第 六 层 开 始 是 全 连接 层 ， 这 里 的 参数 如 图 15-9 所 示 。 需 要 说 明 的 是 ， 对 于 全 连接 层 的 
含义 ， 每 个 人 的 理解 和 解释 不 尽 相 同 ， 在 这 里 笔者 从 矩阵 计算 的 方式 进行 解释 。 

全 连接 层 进行 的 是 权重 和 输入 值 的 矩阵 计算 , 本 质 就 是 将 输入 矩阵 特征 空间 投射 到 另 一 个 
特征 空间 。 在 这 个 空间 投射 变换 过 程 中 ， 提 取 整 合 了 有 用 的 信息 ， 加 上 适当 的 激活 函数 ， 使 得 
全 连接 层 在 理论 上 可 以 模拟 出 线性 和 非 线性 变换 。 

这 个 全 连接 层 在 整个 连接 的 最 后 一 层 将 不 同 的 结果 映射 , 可 以 认为 是 对 输入 进行 分 类 。 在 
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卷 积 神经 网 络 中 ， 使 用 大 量 的 卷 积 和 池 化 层 做 特征 提取 ， 之 后 使 用 全 连接 做 特征 加 权 和 映射 。 
7. 第 七 层 : 全 连接 层 
如 图 15-10 所 示 。 


“data” “data” 
4096 4096 
Ey “data” 

4096 


15-10 ”AlexNet 模型 第 2 个 全 连接 层 











8. 第 八 层 : 全 连接 层 
如 图 15-11 所 示 。 





15-11 AlexNet 模型 最 后 输出 层 


从 全 连接 层 的 图 示 可 以 看 到 , 在 这 里 使 用 了 两 个 dropout 层 。dropout 是 指 在 深度 学 习 网 络 
的 训练 过 程 中 , 对 于 神经 网 络 单元 , 按照 一 定 的 概率 将 其 暂时 从 网 络 中 丢弃 。 这 样 做 的 好 处 是 
对 于 随机 梯度 下 降 来 说 ， 由 于 是 随机 丢弃 ， 因 此 每 一 个 mini-batch 都 在 训练 不 同 的 网 络 。 

最 终 由 最 后 一 个 全 连接 层 对 数据 进行 分 类 处 理 ， 使 用 的 是 softmax 函数 进行 数据 分 类 。 


15.1.2 ”AlexNet 程序 的 实现 


在 前 面 的 章节 学 习 中 , 我 们 对 LeNet 有 了 了 解 ， 并 使 用 TensorFlow 框架 进行 了 程序 设计 ， 
编写 了 相应 的 代码 。 实 际 上 AlexNet 就 是 在 LeNet 模型 的 基础 上 变形 而 来 的 , 因此 可 以 通过 修 
改 LeNet 来 完成 AlexNet 的 实现 。 

在 程序 的 编写 上 ， 遵 循 敏捷 开发 原则 ， 对 参数 进行 集中 管理 。AlexNet 的 全 景 图 如 图 15-2 
所 示 。 
在 图 15-2 的 全 景 图 中 对 各 个 层 的 系数 做 了 分 解 和 说 明 ， 因 此 在 编写 代码 时 最 好 的 设 定 就 
是 预先 将 系数 以 参数 的 形式 固定 ， 代 码 段 如 下 : 


learning _ rate = le-4 
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在 这 里 分 别 对 模型 的 参数 进行 设 定 , 学 习 率 为 0.0001, 预定 的 运行 循环 次 数 为 200 次 , 每 
次 运行 时 使 用 50 个 随机 数据 。n_classes 是 分 类 数目 ， 这 里 在 代码 设计 时 就 确定 了 ， 其 目的 是 
进行 “ 猫 狗 大 战 ” 的 竞赛 ， 而 设 定 的 全 连接 层 中 的 神经 元 数目 为 4096 与 2048。 
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下 面 是 对 占 位 符 的 确定 。 占 位 符 使 用 的 是 矩阵 的 形式 ， 数 据 格 式 为 “float32”。 其 作用 是 
在 模型 计算 和 损失 函数 计算 时 输入 数据 。 

这 里 使 用 Python 程序 中 的 字典 对 数据 的 存储 做 了 设计 。 这 样 做 的 好 处 是 能 够 简化 程序 的 
编写 难度 , 在 每 一 层 的 数据 使 用 上 只 需要 调用 相应 的 变量 号 即 可 , 而 变量 号 对 应 的 变量 值 是 根 
据 模型 框架 统一 计算 和 设计 的 ,因此 笔者 在 这 里 建议 读者 也 使 用 这 种 方法 对 更 多 的 网 络 参数 进 
行 管理 。 

下 面 对 各 个 层 进行 详细 介绍 。 

1. 第 一 层 卷 积 层 





这 里 使 用 的 图 像 规格 是 [227,227,3]。 这 也 是 在 后 面 图 像 处 理 时 输入 的 图 像 数 据 。 需 要 特别 
注意 的 是 , 数据 图 片 为 RGB 图像 格 式 , 有 3 个 通道 , 这 里 在 卷 积 层 第 一 层 提供 的 卷 积 核 为 96， 
同样 也 是 3 个 通道 。 

2. 第 二 层 卷 积 层 
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4. 第 四 层 卷 积 层 


ey 
a 


5. 第 五 层 卷 积 层 





128 Max 
poolir 





以 上 3 层 为 卷 积 层 的 最 后 3 层 。 这 里 需要 注意 的 是 ， 在 这 里 的 卷 积 层 并 没有 使 用 池 化 层 ， 
而 是 在 第 五 个 卷 积 层 结束 以 后 进行 了 池 化 处 理 。 下 面 是 对 全 连接 层 的 使 用 。 


6. 第 六 层 全 连接 层 
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这 里 需要 注意 的 是 , 全 连接 层 在 使 用 前 首先 要 对 输入 的 卷 积 大 小 进行 重新 构建 , 使 得 四 维 
和 矩阵 重 构 为 二 维和 矩阵 。 之 后 使 用 ReLU 激活 函数 以 及 池 化 层 对 其 进行 处 理 。 


7. 第 七 层 全 连接 层 





真正 的 AlexNet 分 类 上 会 将 数据 分 成 1000 类 ， 在 本 次 程序 设计 时 只 需要 将 图 片 分 成 2 类 
即 可 。 
最 后 是 损失 函数 的 确定 ， 这 里 使 用 的 是 softmax 计算 后 使 用 交叉 炉 进 行 的 运算 : 





15.2 实战 猫 狗 大 战 一 一 AlexNet 模型 


猫 狗 大 战 的 数据 集 来 源 于 Kaggle 上 的 一 个 竞赛 : Dogs vs. Cats。 成立 于 2010 年 的 Kaggle 
是 一 个 进行 数据 发 掘 和 预测 竞赛 的 在 线 平 台 。 万 事 达 、 辉 瑞 制药 公司 、 好 事 达 保险 公司 和 
Facebook， 甚 至 NASA 都 曾 在 这 个 平台 上 发 起 过 党 赛 。 

目前 , Kaggle 上 已 有 超过 8.5 万 的 数据 科学 家 。 美国 运通 和 纽约 时 报 等 公司 已 经 把 Kaggle 
排名 作为 数据 科学 家 招聘 过 程 中 的 重要 标准 。 排名 不 仅仅 是 程序 员 的 勋章 , 而 是 一 种 比 传统 标 
准 更 为 重要 、 更 具 价值 的 能 力 证 明 。 
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赛程 总 计 历 时 6 个 月 ， 吸引 了 包括 美国 、 瑞 士 、 德 国 、 法 国 、 新 加 坡 、 印 度 等 地 的 数据 科 
学 家 、 研 究 人 员 ， 甚 至 硅谷 等 地 的 人 工 智能 企业 团队 参加 。 

当然 ， 也 有 不 少 中 国 的 个 人 和 团队 参赛 ， 其 中 中 国 竞赛 团队 Matview 进入 了 前 10 名 。 同 
进 前 10 的 参赛 者 中 ,不乏 谷歌 工程 师 、 知 名 黑客 、 机 器 学 习 首 席 数 据 科 学 家 等 专业 人 士 。IIT 
Bombay 的 数据 科学 家 Damodar 也 参赛 过 , 他 是 深度 学 习 图 像 分 类 方向 的 专家 ,本 次 比赛 获得 
了 第 22 名 的 成 绩 。 
正如 Kaggle 在 本 次 国际 猎狗 识别 比赛 的 介绍 中 所 说 ，2013 年 以 来 ， 机 器 学 习 领域 发 生 了 
很 多 变化 ,特别 是 深度 学 习 和 图 像 识 别 ,这 项 本 是 数学 家 们 无 聊 时 用 来 打发 时 间 的 下 午 茶 技术 ， 
现在 正 广泛 地 被 运用 于 实际 生活 和 生产 中 。 


15.2.1 数据 的 收集 与 处 理 


猫 狗 大 战 的 数据 集 下 载 地 址 为 https://www.kaggle.com/c/dogs-vs-cats。 其 中 数据 集 有 12500 
只 猫 和 12500 只 狗 。 与 MNIST 数据 集 的 不 同 之 处 是 , 这 里 的 数据 集 均 来 自 于 真实 世界 的 照片 ， 
无 形 中 加 大 了 图 像 处 理 的 难度 ， 如 图 15-12 所 示 。 











由 at 
EA LY 
图 15-12 猫 狗 大 战 数 据 集 图 片 


训练 神经 网 络 进行 图 片 识别 的 第 一 步 就 是 需要 对 数据 集 进行 加 工 和 处 理 。 

1. 第 一 步 : 数据 集 的 加 工 

数据 集中 的 数据 并 不 是 按照 规格 大 小 处 理 ， 对 于 不 同 的 图 片 ， 其 规格 尺寸 都 不 尽 相同 ， 因 
此 在 数据 提交 之 前 需要 对 数据 集 进行 处 理 。 

最 简单 的 处 理 方式 就 是 把 数据 裁剪 成 既定 的 大 小 , 在 AlexNet 模型 中 , 输入 到 模型 中 的 图 
片 大 小 为 [227,227]， 因 此 这 里 建议 将 图 片 按 这 个 尺寸 进行 裁剪 。 代 码 段 如 下 : 

import cv2 

import os 


def rebuild(dir) : 
for root, dirs, files in os.walk(dir) : 
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在 这 里 导入 的 是 图 片 集 的 根 目录 ，os 对 数据 集 所 在 的 文件 夹 进行 读 取 ， 之 后 的 一 个 for 
循环 重建 了 图 片 数 据 所 在 的 路 径 ， 在 图 片 被 重 构 后 重新 写 入 了 给 定 的 位 置 。 

这 里 需要 提醒 的 是 ， 笔 者 在 这 个 代码 段 中 对 数据 的 读 写 是 在 一 个 try 区 域 中 ， 因 为 在 整个 
数据 集中 不 可 避免 地 会 包含 和 出 现 坏 的 图 片 , 这 里 当 程序 出 现 异常 时 , 最 简单 的 办 法 就 是 跳 过 
出 问题 的 图 片 继续 执行 下 去 。 因 此 在 except 模块 中 使 用 了 os.remove 函数 对 图 片 进 行 删除 。 


a 在 “ 猫 狗 大 战 ”数据 集中 ， 竞 赛 组 织 方 提供 了 较为 充足 的 图 片 供 模型 学 习 ， 当 读者 在 进行 别 
的 模型 训练 时 可 以 使 用 多 种 方法 对 数据 进行 重新 生成 ， 这 里 读者 可 以 自行 查阅 资料 设计 。 





2. 第 二 步 : 图 片 数 据 集 转化 为 TensorFlow 专用 格式 
在 前 面 章节 已 介绍 过 ， 对 于 数据 集 来 说 ， 最 好 的 方法 就 是 将 其 转换 为 TensorFlow 专用 的 
数据 格式 ， 即 TFRecord 格式 。 
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上 面 的 代码 段 中 , 首先 是 对 数据 集 文件 的 位 置 进行 读 取 , 之 后 根据 文件 夹 名 称 的 不 同 将 处 
于 不 同文 件 夹 中 的 图 片 标签 设置 为 0 或 者 1, 如 果 有 更 多 分 类 的 话 可 以 依据 这 个 格式 设置 更 多 
的 标签 类 。 之 后 使 用 创建 的 数组 对 所 读 取 的 文件 位 置 和 标签 进行 保存 ， 而 NumPy 对 数组 的 调 
整 重 构 了 存储 有 对 应 文件 位 置 和 文件 标签 的 矩阵 ， 并 将 其 返回 。 


在 获取 图 片 数据 文件 位 置 和 图 片 标签 之 后 , 即 可 通过 相应 的 程序 对 其 进行 读 取 , 并 生成 专 
用 的 TFRecord 格式 的 数据 集 。 
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首先 是 转换 格式 的 定义 ， 这 里 需要 将 数据 转换 为 相应 的 格式 ， 这 个 内 容 在 讲解 IO 内 容 时 
已 经 做 了 介绍 ， 这 里 就 不 再 重复 。 

convert_to_tfrecord(images_list，labels_list，save_dir，name) 函 数 中 需要 4 个 参数 ， 其 中 
image_list 和 labels_list 是 上 一 个 代码 段 获取 的 图 片 位 置 和 对 应 标签 的 列表 。save_dir 是 存储 路 
径 ， 如 果 希 望 将 生成 的 TFRecord 文件 存储 在 当前 目录 下 ， 直 接 使 用 空 的 双 引号 " " 即 可 。 最 后 
是 生成 的 文件 名 ， 这 里 只 需 填写 名 称 就 会 自动 生成 以 “.tfrecords” 格 式 结尾 的 数据 集 。 

当 生 成 完 数据 集 后 ， 在 神经 网 络 使 用 数据 集 进行 训练 时 ,需要 一 个 方法 将 数据 从 数据 集中 
取出 ， 下 面 的 代码 段 完成 了 数据 读 取 的 功能 。 





这 里 按 写 入 格式 读 取 数 据 集 , 需要 注意 的 是 , 输入 的 参数 有 对 读 取 的 batch 尺寸 进行 设置 ， 
如 果 大 小 不 合适 ， 就 会 影响 模型 的 训练 速度 。 
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3. 第 二 步 补充 : 图 片 地 址 数据 集 转化 为 TensorFlow 专用 格式 


对 于 数据 容量 不 太 大 的 数据 集 ， 将 其 整体 转换 成 TensorFlow 专用 格式 输入 到 模型 中 进行 
训练 是 一 个 非常 好 的 方法 。 对 于 某 些 容量 非常 庞大 、 数 据 量 非常 多 的 数据 集 来 说 , 将 其 转换 成 
TFRecord 格式 是 一 个 非常 浩大 的 工程 ， 而 且 往往 由 于 原始 的 数据 集 和 转换 后 的 数据 集 容量 过 
大 ， 使 得 加 载 和 读 取 耗 费 更 多 的 资源 ， 从 而 引起 一 系列 的 问题 。 

因此 在 工程 上 , 除了 直接 将 数据 集 转化 成 专用 的 数据 格式 之 外 , 还 有 一 种 常用 的 方法 就 是 
将 需要 读 取 的 数据 地 址 集 转换 成 专用 的 格式 ， 每 次 直接 在 其 中 读 取 生成 batch 后 的 地 址 ， 将 地 
址 读 取 后 直接 在 模型 内 部 生成 包含 25 个 图 片 格式 的 TFRecord。 代 码 段 如 下 : 





在 这 里 get_batch(image_list, label_list,img_width,img_height,batch_size,capacity) 函 数 中 有 6 
个 参数 , 前 2 个 分 别 为 图 片 列表 和 标签 列表 (图片 列表 和 标签 列表 的 生成 方式 在 前 文 的 代码 段 
中 已 经 说 明 ) 。img_ width 和 img_height 分 别 为 生成 图 片 的 大 小 , 这 里 可 以 按 模 型 的 需求 指定 。 
batch_size 和 capacity 分 别 是 每 次 生成 的 图 片 数 量 和 在 内 存 中 存储 的 最 大 数据 容量 ， 这 里 可 根 
据 不 同 硬件 配置 指定 。 





4. 第 三 步 : 标签 格式 的 重 构 与 模型 存储 
在 上 文 标签 的 生成 过 程 中 ， 标 签 按 文件 夹 名 称 的 不 同 生成 1 或 者 0， 而 在 模型 的 计算 中 ， 
需要 将 不 同 的 标签 按 one-hot 存储 的 格式 生成 二 维 矩 阵 。 这 里 更 改 标签 格式 的 代码 为 : 
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可 以 看 到 标签 输入 到 这 里 之 后 生成 一 个 二 维和 矩阵 , 之 后 根据 大 小 数目 , 矩阵 的 相应 位 置 被 
标记 为 数字 1 。 


15.2.2 ”模型 的 训练 与 存储 


1. 第 一 步 : 模型 的 使 用 
这 里 使 用 预先 实现 的 AlexNet 模型 ， 代 码 段 如 下 : 
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可 能 有 读者 注意 到 模型 的 第 一 句 是 with tf.device('/cpu:0"), 在 这 里 是 对 使 用 的 CPU 情况 进 
行 注释 。 如 果 有 多 个 CPU 共同 使 用 ， 那 么 此 模型 的 训练 可 以 是 仅 使 用 序列 上 的 第 一 个 CPU。 

2. 第 二 步 : 模型 的 存储 

除 此 之 外 , 对 于 训练 的 模型 , 根据 不 同 的 情况 ,需要 对 模型 的 结构 以 及 设 定 的 权重 进行 存 
储 。TensorFlow 中 也 提供 了 模型 存储 的 函数 ， 即 妃 save 函数 。 具 体 使 用 如 下 : 





在 模型 存储 的 阶段 ， 只 需要 使 用 提供 的 save 函数 进行 存储 。 需 要 说 明 的 是 ， 模 型 既 可 以 
存储 在 绝对 路 径 下 ， 也 可 以 存储 在 当前 路 径 下 。 当 前 路 径 的 存储 需要 在 其 文件 夹 名 前 加 “./”， 
这 是 最 新 的 格式 要 求 。 

对 于 文件 的 读 取 ， 可 以 同样 使 用 save 函数 。 





给 train.latest_checkpoint 函数 读 取 对 应 文件 夹 中 最 新 的 一 个 模型 。 使 用 这 种 模型 的 好 处 是 
可 以 根据 最 新 的 时 间 回 复 最 新 的 存储 模型 。 

需要 注意 的 是 ， 对 于 回复 的 模型 ， 一 定 要 使 用 模型 训练 的 占 位 符 符号 进行 数据 输入 ， 同 时 
用 同一 个 Saver 对 象 来 恢复 变量 。 当 从 文件 中 恢复 变量 时 ， 不 需要 对 其 进行 初始 化 ， 否 则 会 报 
错 。 

3. 第 三 步 : 模型 的 训练 

介绍 完全 部 工作 后 ， 最 后 一 步 是 对 模型 的 训练 。 

当 模型 设计 和 数据 的 准备 已 经 完成 之 后 ， 即 可 开始 模型 的 训练 工作 。 这 里 为 了 便于 读 取 ， 
将 整个 模型 训练 工作 放 在 一 个 train 函数 中 ， 传 递 相 关 的 次 数 即 可 。 
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在 模型 的 训练 中 ， 首 先 产 生 了 模型 输出 通道 ， 之 后 使 用 batch_size 批量 读 取 数 据 ， 无 论 采 
用 何 种 数据 读 取 格式 ， 对 于 标签 label 来 说 ， 都 需要 将 其 转换 成 矩阵 格式 ， 因 此 在 读 入 模型 前 
需要 使 用 one-hot 函数 对 其 进行 操作 。 

这 里 提供 了 一 个 loss 数组 作为 损失 函数 的 记录 ， 在 模型 的 训练 结束 后 ， 可 以 查看 相关 的 
loss 程度 对 模型 进行 修改 。 

从 图 15-13 中 可 以 看 到 ， 经 过 5000 次 循环 训练 后 ， 损 失 函 数 逐 渐 趋 于 稳定 ， 在 0~3 进行 
波动 ， 并 且 损 失 函 数 在 开始 500 次 左右 下 降 很 快 ， 而 到 1000 次 以 后 基本 上 趋向 于 在 一 个 稳定 
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的 区 间 波 动 。 











T T 
0 1000 2000 3000 4000 5000 


图 15-13 ”5000 次 循环 训练 后 损失 函数 的 趋势 曲线 


15.2.3 ”使 用 训练 过 的 模型 预测 图 片 


对 于 模型 的 训练 , 最 终 目的 是 使 用 训练 好 的 模型 对 图 片 进行 预测 ， 此 时 就 需要 使 用 保存 好 
的 模型 。 调 用 已 经 保存 的 模型 代码 在 上 文 已 经 给 出 。 





这 里 直接 使 用 tttrain.latest_checkpoint 函数 即 可 读 取 对 应 目录 下 最 后 存储 的 模型 和 权重 文 
件 。 代 码 段 如 下 : 
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_class(imagefile) 函 数 中 包含 一 个 参数 ， 即 图 片 文件 的 地 址 ， 之 后 使 用 PIL 重新 读 取 图 
片 后 将 其 重 构 为 所 需要 的 [227,227] 大 小 的 图 片 数据 , 再 将 其 进行 矩阵 处 理 后 准备 输入 模型 进行 
甄别 。 
对 于 模型 的 读 取 ， 采 用 的 是 save.restore 函数 ， 从 最 近 保存 的 文件 夹 中 读 取 相对 应 的 文件 
后 将 模型 重新 载 入 。 需要 注意 的 是 , 这 里 载 入 的 模型 依旧 要 使 用 保存 的 模型 中 的 训练 占 位 符 以 
及 模式 标识 。 


即 上 面 代码 段 中 fc3 的 模型 以 及 数据 输入 的 占 位 符 x。 这 点 非常 重要 ， 请 读者 不 要 产生 错误 。 
最 终 的 AlexNet 程序 如 下 所 示 。 


【程序 15-1】 
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程序 15-1 是 使 用 AlexNet 对 图 像 进行 识别 训练 和 预测 的 完整 程序 。 注 意 ， 这 里 提供 了 两 
种 数据 读 取 方法 ， 分 别 对 应 15.2.1 节 中 的 两 种 数据 读 取 和 生成 方法 。 
执行 程序 的 代码 如 下 : 
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imagefile 是 数据 图 片 存储 的 路 径 ， 之 后 采用 for 循环 将 所 有 的 图 片 送 入 模型 进行 训练 , 通 
过 判定 返回 值 的 大 小 来 确定 模型 计算 的 结果 。 最 终结 果 请 读者 自行 训练 测试 。 


15.2.4 使 用 Batch_Normalization 正则 化 处 理 数据 集 


在 AlexNet 训练 模型 中 ， 损 失 函 数 的 数值 虽然 按照 既定 的 想法 随 着 训练 次 数 的 不 断 增加 ， 
而 大 量 降 低 ， 但 是 对 于 损失 函数 来 说 仍然 需要 考虑 可 能 的 因素 来 降低 损失 函数 的 差 值 。 

一 般 来 说 ， 当 模型 设计 完毕 以 后 , 更 多 的 是 需要 对 输入 数据 进行 处 理 , 不 同 的 数据 类 型 以 
及 图 片 属性 都 会 对 模型 的 训练 产生 很 大 的 影响 。 因 此 , 需要 一 种 专门 的 方法 去 解决 因 图 片 不 同 
而 产生 的 差异 影响 。 

对 于 深度 来 说 , 数据 在 模型 中 的 训练 是 一 个 复杂 的 过 程 。 即 使 训练 模型 网 络 的 前 面 几 层 发 
生 非 常 小 的 变化 , 随 着 梯度 下 降 算法 的 计算 ,这 个 微小 的 变化 在 后 面 几 层 也 会 被 累积 放大 下 去 。 

当 数 据 输入 的 属性 分 布 发 生 改变 时 ,即使 是 很 小 的 变化 , 在 传递 这 个 变化 的 过 程 时 ,网络 
的 后 端 也 会 产生 非常 大 的 变化 , 从 而 需要 整个 模型 、 整 个 网 络 去 重新 适应 和 学 习 这 个 新 的 数据 
分 布 。 如 果 训 练 数据 的 分 布 一 直 在 发 生变 化 , 那么 训练 模型 对 最 后 的 预测 结果 也 是 在 一 个 比较 
大 的 错误 率 之 间 浮 动 。 

Batch_ Normalization 是 一 种 新 近 的 对 数据 差异 性 进行 处 理 的 手段 。 通 过 对 在 “一 个 范围 内 ” 
的 数据 进行 规范 化 处 理 ， 使 得 输出 结果 的 均值 为 0、 方差 为 1， 具 体 公式 如 图 15-14 所 示 。 





Input: Values of x over a mini-batch: B = {z1...m}; 
Parameters to be learned: 7, 有 
Output: {y: = BN,,a(2i)} 
1 
LB to 1/ mini-batch mean 
=1 
1 严 
BD (rhe)? 1/ mini-batch variance 
Tl 
ps Ti— HB 四 
i /normalize 
J Te 
入 全 ?72 十 有 三 BNype(zi) ll scale and shift 











Algorithm 1: Batch Normalizing Transform, applied to 


activation z over a mini-batch. 


15-14 正则 化 公式 


288 


第 15 章 “” 猫 狗 大 战 一 一 实战 AlexNet 





笔者 在 此 并 不 详细 讲解 此 公式 的 推导 与 证 明 ， 有 兴趣 的 读者 可 以 自行 对 此 公式 进行 研究 。 
TensorFlow 中 提供 了 专门 的 函数 来 完成 数据 的 Batch Normalization 计算 。 函 数 如 下 : 


下 面 对 参 数 进行 解释 : 


x: 输入 的 数据 文件 。 

mean: 批量 数据 均值 。 

variance: 批量 数据 方差 。 

offset: 待 训练 参数 。 

scale: 待 训练 参数 。 
variance_epsilon: 方差 编译 系数 。 
name: 名 称 。 


这 里 主要 使 用 了 Batch 中 的 均值 以 及 方差 。offset 和 scale 是 在 模型 中 需要 训练 的 数据 。 
variance_epsilon 是 需要 设 定 的 一 个 系数 ， 一 般 情况 下 将 其 设置 为 0.0001 即 可 。 
使 用 TensorFlow 中 的 Batch_Normalization 方法 如 下 : 
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首先 是 对 variance 和 offset 的 生成 ， 这 里 使 用 的 是 传统 的 占 位 符 ， 之 后 通过 ttnn.moments 
函数 获取 了 数据 的 均值 与 均 方差 。train mean 和 train_var 是 滑动 平均 值 和 滑动 方差 的 计算 ， 这 
点 将 作为 函数 数据 集 的 均值 和 均 方 差 输入 到 计算 函数 中 。 

全 control dependencies 函数 表明 只 有 在 [train_mean, train_var] 的 计算 结束 后 才 可 以 对 下 一 
步 的 Batch_Normalization 进行 计算 ， 返 回 的 也 是 相对 应 的 函数 和 计算 值 。 

这 里 有 一 个 非常 重要 的 问题 : Batch_Normalization 函数 用 在 模型 计算 的 哪个 位 置 。 一 般 情 
况 下 ,Batch _ Normalization 用 在 矩阵 计算 之 前 ， 因 为 卷 积 神经 网 络 经 过 卷 积 后 得 到 的 是 一 系列 
的 特征 图 。 在 卷 积 神经 网 络 中 可 以 把 每 个 特征 图 看 成 一 个 特征 处 理 , 对 于 每 个 卷 积 后 的 特征 图 
都 只 有 一 对 可 学 习 参数 ,同时 求 取 所 有 样本 所 对 应 的 特征 图 的 所 有 神经 元 的 平均 值 、 方差 , 然 
后 对 这 个 特征 图 神经 元 做 归 一 化 。 

具体 使 用 如 下 : 
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可 以 从 上 面 的 代码 段 中 看 到 ， 在 每 个 卷 积 层 采样 之 后 ， 都 使 用 Batch_ Normalization 函数 
进行 了 数据 归 一 化 处 理 。 全 部 代码 如 程序 15-2 所 示 。 


【程序 15-2】 





第 15 章 ” 猫 狗 大 战 一 一 实战 AlexNet 





TensorFlow 深度 学 习 应 用 实践 】 





第 15 章 猎狗 大 战 一 一 实战 AlexNet 























TensorFlow 深度 学 习 应 








第 15 章 “” 猫 狗 大 战 一 一 实战 AlexNet 





打印 出 最 终 的 损失 函数 曲线 ， 如 图 15-15 所 示 。 














0 200 400 600 800 1000 1200 1400 1600 
图 15-15 加 入 Batch_ Normalization 后 的 损失 函数 变化 曲线 


这 里 选取 了 前 1500 次 循环 的 损失 函数 变化 率 作为 计数 曲线 。 随 着 次 数 的 增加 ， 损 失 率 由 
1 降低 到 0.2 左右 ， 这 与 未 加 Batch_Normalization 的 损失 曲线 比较 ， 获 得 了 十 倍 以 上 的 提高 。 
相关 结果 可 由 读者 自行 验证 。 


15.3 本 章 小 结 


本 章 详细 介绍 了 一 个 使 用 AlexNet 进行 图 像 处 理 的 例子 ,这 个 例子 来 源 于 现实 中 的 Kaggle 
竞赛 一 一 猫 狗 大 战 。 

在 本 章 中 ,笔者 循序 渐进 地 讲解 了 完成 一 个 图 像 识 别 工程 的 全 部 流程 :数据 的 收集 与 处 理 、 
模型 的 设计 与 训练 、 中 途 图 像 的 存储 和 参数 调整 。 这 些 是 在 工业 或 者 商业 上 做 图 像 识别 最 常用 
的 技能 。 

本 章 讲述 的 实例 是 深度 学 习 对 图 像 识别 应 用 的 经 典 例子 , 在 实际 的 工作 中 , 读者 可 能 会 遇 
到 更 多 要 求 对 图 像 识 别 进行 研究 的 案例 ， 综 合 运用 多 种 模型 和 手段 去 发 现 数据 所 蕴含 的 价值 ， 
提取 图 像 中 的 特征 并 做 出 分 类 .相信 通过 本 书 的 学 习 能 够 使 读者 初步 掌握 使 用 卷 积 神经 网 络 处 
理 图 像 的 方法 。 
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AlexNet 赢得 了 2012 年 ImageNet 图 像 识 别 冠军 之 后 ， 使 用 深度 学 习 ， 特 别 是 卷 积 神经 网 
络 ， 在 图 像 识别 领域 的 应 用 引起 了 广泛 的 关注 ， 并 且 也 获得 了 较 好 的 成 绩 。 在 2014 年 的 
ImageNet 识 图 大 赛 上 ，VGG 凭借 着 优异 的 成 绩 获 得 了 识 图 大 赛 的 冠军 。 

从 本 质 上 来 看 ，VGGNet 是 在 更 细 的 粒度 上 实现 的 AlexNet， 它 广泛 使 用 了 非常 小 的 卷 积 
核 架 构 去 实现 更 深层 次 的 卷 积 神经 网 络 ,在 一 定 程度 上 证 实 了 ,通过 推进 卷 积 神经 网 络 的 深度 ， 
增加 更 多 的 隐藏 层 和 权重 可 以 实现 对 现 有 识别 的 明显 改进 。 

本 章 将 介绍 VGGNet 的 组 成 结构 ， 着 重 介绍 VGGNet 的 网 络 调 参 以 及 在 其 后 执行 
Finetuning 的 能 力 。Finetuning 的 意思 是 在 已 有 模型 之 后 进行 参数 和 训练 模型 复 用 的 缩写 ， 也 
是 真实 工程 应 用 中 最 常用 的 使 用 既 有 模型 的 手段 。 








TensorFlow 模型 保存 与 恢复 详解 


本 书 在 讲解 AlexNet 时 ， 介 绍 了 使 用 TensorFlow 自 带 的 Saver 函数 对 训练 后 的 AlexNet 
进行 保存 和 恢复 。 在 操作 上 这 是 一 个 非常 简单 的 程序 编写 ,， 只 需 使 用 TensorFlow 自 带 的 Saver 
函数 即 可 完成 所 需 的 工作 。 

但 是 事实 上 , 这 是 一 个 非常 复杂 的 过 程 , 模型 的 恢复 从 开始 的 V1 版 升级 到 最 新 的 V2 版 ， 
并 且 对 于 生成 的 数据 保存 文件 也 不 再 是 一 个 简单 的 ckpt 后 级 文件， 而 是 对 训练 模型 的 结构 图 
和 参数 进行 了 保存 。 本 节 将 对 这 个 最 新 保存 函数 进行 解析 。 





16.1.1 TensorFlow 保存 和 恢复 函数 的 使 用 


1. 模型 的 保存 
对 于 模型 的 保存 和 恢复 ，TensorFlow 提供 了 专门 的 类 : 
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Saver 是 TensorFlow 中 保存 类 ， 一 般 情况 下 ， 其 常用 方法 为 save 和 restore。 简 单 来 说 ， 
保存 一 个 文件 所 使 用 的 函数 方式 为 : 


函数 中 传 入 两 个 参数 ， 分 别 是 当前 “对 话 ”、 模 型 的 保存 路 径 。 可 能 读者 会 有 疑问 ， 这 里 
并 没有 涉及 模型 的 参数 ， 实 际 上 对 于 TensorFlow 在 整个 图 运行 时 ， 已 经 将 对 话 作为 一 个 整体 
保存 ， 而 所 训练 的 模型 也 同样 被 保存 在 对 话 中 。save_path 是 保存 路 径 ， 这 个 参数 要 求 是 一 个 
文件 夹 路 径 ， 确 保 Saver 将 模型 保存 到 save_path 路 径 下 的 文件 夹 中 。 














[= 7 不 bn a 站 个 专用 文件 中 命名 ， a a 管理 。 


2. 模型 的 恢复 
使 用 Saver 类 对 数据 进行 恢复 也 很 简单 ， 代 码 如 下 : 


这 里 是 在 当前 对 话 中 对 模型 和 参数 进行 恢复 。 需要 注意 的 是 , 会 话 中 模型 参数 需要 定义 在 
Saver 的 restore 函数 之 前 ， 这 样 使 得 恢复 的 会 话 中 会 自动 导入 保存 的 模型 。 


16.1.2 多 次 模型 的 保存 和 恢复 


1. 按 循环 次 数 保存 代码 


除了 常规 对 数据 保存 外 ，save 函数 中 还 有 一 个 global_step 参数 ， 用 以 定义 模型 保存 的 规 
则 。 代 码 如 下 : 
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这 样 在 Saver 进行 模型 保存 时 ， 可 以 根据 训练 次 数 ， 每 隔 n 次 后 对 数据 进行 一 次 保存 。 


[县 昌 可 能 有 读者 会 提出 慰问 , 如果 保存 的 模型 文件 过 多 会 不 会 占据 全 部 的 硬盘 空间 。 这 点 saver | 
类 在 设计 时 就 已 经 予以 考虑 。 在 实际 保存 时 ，TensorFlow 仅仅 会 保存 最 近 5 个 模型 文件 ， 
而 会 删除 额外 的 已 保存 模型 





2. 恢复 最 新 的 模型 
对 于 模型 的 恢复 ， 一 般 情况 下 是 对 最 新 的 模型 进行 恢复 ， 使 用 如 下 代码 : 





首先 是 对 save_path 进行 定义 ， 这 里 和 恢复 时 一 样 ， 使 用 了 restore 函数 进行 数据 恢复 ， 而 
不 同 之 处 在 于 ， 这 里 并 不 是 将 模型 存储 的 文件 夹 路 径 输 入 到 restore 函数 中 ， 而 是 通过 调用 
latest_checkpoint 获取 文件 夹 中 最 新 的 存储 文件 路 径 ， 之 后 将 路 径 输 入 到 restore 中 进行 恢复 。 


16.1.3 ”实战 TensorFlow 模型 的 存储 与 恢复 


随 着 模型 形式 的 越 来 越 复杂 , 对 模型 存储 的 要 求 和 格式 也 是 越发 重要 。 借鉴 敏捷 开发 的 模 
型 ， 首 先 对 于 常用 变量 的 定义 ， 笔 者 建议 使 用 全 部 变量 进行 存储 ; 而 对 于 模型 专用 的 类 ， 也 建 
议 创 建 专门 的 模型 控制 。 工 程 文件 的 分 类 如 图 16-1 所 示 。 


下 Bsave_and_restore 
> Bamodel 
如 global_variable.py 
访 lineRegulation_model.py 
息 model_restore.py 
如 model_train.py 


16-1 工程 文件 的 分 类 
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1. 第 一 步 : 全 局 数据 与 模型 类 的 定义 

首先 是 对 全 局 数据 的 定义 , 对 模型 的 保存 与 读 取 来 说 , 存储 文件 夹 的 地 址 是 一 个 通用 的 变 
量 ， 因 此 将 其 定义 为 全 局 存储 的 变量 是 较为 合适 的 。 

在 工程 目录 下 新 建 一 个 名 为 global_variable 的 Python 文件 ， 其 内 容 如 下 : 


这 里 定义 了 一 个 文件 存储 路 径 ， 即 图 16-1 中 model 文件 夹 的 位 置 ， 这 里 采用 的 是 相对 路 
径 ， 因 此 无 须 将 全 部 路 径 输入 。 

特别 需要 提示 的 是 , 对 于 使 用 这 类 定义 的 全 局 变量 来 说 , 在 使 用 时 需要 将 其 作为 程序 文件 
导入 ， 代 码 如 下 : 


2. 第 二 步 : 模型 的 定义 

从 图 16-1 可 以 看 到 ，lineRegulation_model 是 模型 文件 。 从 名 称 上 可 以 知道 ， 这 里 定义 的 
是 一 个 线性 回归 模型 。 在 这 里 笔者 将 其 定义 为 一 个 类 使 用 , 这 样 做 的 好 处 是 可 以 使 用 相同 的 创 
建 方法 将 类 的 定义 放 在 不 同 的 文件 中 , 也 就 是 在 训练 模型 和 恢复 模型 中 保存 和 重新 加 载 , 而 不 
会 因为 定义 或 者 输入 错误 而 产生 不 好 的 结果 。 


【程序 16-1】 





在 程序 16-1 中 首先 定义 了 LineRegModel 类 , 之 后 初始 化 了 模型 建立 所 需 使 用 的 参数 ， 因 
为 在 本 例 中 创建 的 是 一 个 一 元 线性 回归 模型 ， 因 此 这 里 只 需 使 用 a_val 和 b_val 作为 数据 的 初 
始 化 变量 ， 并 将 其 随机 化 处 理 为 1。 

之 后 定义 了 x_input 和 y_output 作为 数据 的 输入 和 最 终结 果 ， 而 模型 的 设计 使 用 了 
TensorFlow 自 带 的 函数 ， 其 格式 如 下 : 





这 是 一 个 传统 的 线性 一 元 函数 的 模型 ,在 训练 时 可 以 根据 需要 进行 定义 , 而 且 对 损失 函数 
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的 定义 也 在 此 完成 ,这 是 为 了 对 损失 函数 值 进行 设 定 。get_op 函数 是 获取 定义 类 中 的 训练 函数 ， 
在 此 可 以 对 学 习 率 以 及 最 小 化 方式 进行 定义 。 

3. 第 三 步 : 模型 的 训练 


对 于 模型 的 训练 ， 首先 是 数据 集 的 问题 。 在 这 里 使 用 的 数据 集 是 随机 产生 的 数据 ,之 后 根 
据 一 元 函数 定义 产生 结果 集合 。 代 码 如 下 : 





完整 代码 如 下 所 示 。 
【程序 16-2】 
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对 于 模型 输入 的 数据 值 , 这 里 使 用 的 是 新 生成 的 类 中 定义 的 值 。 对 于 输入 输出 以 及 损失 函 
数 都 使 用 模型 中 定义 的 值 , 这 样 做 的 好 处 在 前 面 已 经 反复 强调 , 即 可 以 在 任意 地 方 使 用 相同 的 
值 的 定义 。 

之 后 是 损失 函数 和 训练 函数 的 定义 。 一 个 非常 重要 的 地 方 就 是 在 于 Saver 类 的 定义 , 这 里 
Saver 类 是 定义 在 会 话 执 行 前 ， 这 也 是 通常 的 定义 方法 。 

会 话 被 定义 在 main 函数 中 ， 这样 便于 测试 时 仅仅 运行 所 需要 的 程序 。main 函数 的 使 用 方 
法 请 读者 自行 查阅 相关 的 内 容 。 会 话 首先 对 变量 进行 初始 化 操作 ， 之 后 使 用 了 flag 这 个 布尔 
值 变量 确保 循环 可 以 执行 下 去 ， 而 flag 的 调节 根据 需要 对 损失 函数 值 进行 确定 ， 这 里 的 差 值 
在 0.000001 以 内 。 

最 后 是 对 训练 好 的 模型 进行 保存 ， 使 用 Saver 函数 的 save 方法 将 对 话 保存 到 相应 的 路 径 
中 。 保 存 结果 如 图 16-2 所 示 。 


了 Bsave_and_restore 
v Baimodel 

十 .data-00000-of-00001 
慎 .index 
国 .meta 
蛋 checkpoint 

如 global_variable.py 

访 lineRegulation_model.py 

刘 model_restore.py 

如 model_train.py 


图 16-2 保存 文件 的 截图 
4. 第 四 步 : 模型 的 恢复 


对 于 模型 的 恢复 所 使 用 的 方法 为 Saver 类 中 的 restore 函数 ,恢复 指定 保存 文件 夹 中 的 训练 
模型 ， 代 码 如 下 。 


【程序 16-3】 
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首先 是 对 模型 的 使 用 ,这 里 采用 的 是 类 的 实现 , 可 以 在 最 大 程度 上 复 用 已 有 的 参数 的 定义 。 
在 对 话 内 部 Saver 函数 对 模型 进行 了 恢复 ， 之 后 通过 对 话 输入 待 计算 的 数值 后 打印 结果 。 


1〗6 .2 更 为 细 化 的 保存 和 恢复 方法 


对 于 模型 的 保存 和 恢复 ，16.1 节 已 经 做 了 介绍 ， 然 而 读者 可 能 已 经 注意 到 , 在 设 定 的 保存 
文件 夹 中 有 着 4 个 不 同 的 文件 类 型 ， 如 图 16-3 所 示 。 
v 加 model 
习 checkpoint 
韦 save_model.ckpt.data-00000-of-00001 
二 save_model.ckpt.index 
起 save_model.ckpt.meta 


16-3 ”已 保存 的 文件 格式 


可 以 得 知 , 根据 需要 每 个 文件 类 型 都 有 其 不 同 的 用 途 , 但 是 仅仅 知道 这 些 还 是 不 够 ,对 于 
TensorFlow 程序 设计 人 员 来 说 ， 需 要 更 进一步 地 了 解 不 同 的 文件 所 处 的 作用 。 


16.2.1 存储 文件 的 解读 
在 介绍 存储 文件 之 前 ， 先 对 Saver 类 进行 一 下 解释 。 在 不 同 的 会 话 中 ， 当 需要 将 数据 在 硬 
盘 上 进行 保存 时 ， 就 可 以 使 用 Saver 类。 这 个 Saver 构造 类 允许 你 去 控制 3 个 元 素 : 
@ 目标 (The target) : 设置 目标 。 在 分 布 式 架构 的 情况 下 ， 我 们 可 以 指定 要 计算 哪个 
TensorFlow 服务 器 或 者 “目标 ”。 
@ 图 (The graph) : 设置 保存 的 图 。 保 存 希望 会 话 处 理 的 图 。 对 于 初学 者 来 说 ， 这 里 
有 一 件 坏 手 的 事情 就 是 在 TensorFlow 中 总 是 有 一 个 默认 的 图 ， 并 且 所 有 的 操作 都 是 
在 这 个 图 中 首先 进行 。 所 以 ， 总 是 在 “默认 图 范围 ”内 。 
@ 配置 (The config) : 设置 配置 。 可 以 使 用 ConfigProto 参数 来 配置 TensorFlow。 
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Saver 类 可 以 处 理 图 中 元 数据 和 变量 数据 的 保存 和 恢复 。 而 我 们 唯一 需要 做 的 是 ， 告 诉 
Saver 类 需要 保存 哪个 图 和 哪些 变量 。 在 默认 情况 下 ，Saver 类 能 处 理 默 认 图 中 包含 的 所 有 变 
量 。 但 是 ， 我 们 也 可 以 创建 很 多 的 Saver 类 ， 去 保存 想 要 的 任何 子 图 。 

介绍 完 Saver 类 ， 对 于 模型 存储 来 说 ， 这 里 有 4 个 文件 类 型 ， 依 次 如 下 : 


@ checkpoint: 检查 点 文件 ， 记 录 存 储 文件 名 称 。 

@ save_model.ckpt.data-00000-of-00001: 等 价 于 save_model.ckpt， 权 重 存储 文件 。 
@ save_ model.ckptindex: 存储 权重 目录 。 

@ save_ model.ckpt.meta: 模型 的 全 部 图 文件 。 


在 对 模型 进行 保存 和 恢复 时 ，Saver 类 将 保存 与 图 相关 联 的 任何 元 数据 。 这 意味 着 加 载 元 
检查 点 还 将 恢复 与 图 相关 联 的 所 有 空 变量 、 操 作 和 集合 。 

因此 恢复 一 个 元 检查 点 时 , 实际 上 是 将 保存 的 图 加 载 到 当前 默认 的 图 中 。 可 以 通过 其 来 加 
载 任何 包含 的 内 容 ， 如 张 量 、 操 作 或 集合 。 











16.2.2 更 细节 地 对 模型 进行 恢复 和 处 理 


现在 抛 开 理 论 介绍 而 对 模型 进行 恢复 和 处 理 。 在 上 一 小 节 的 内 容 已 经 讲 了 ,对 于 整个 模型 ， 
TensorFlow 将 整体 的 “图 ”文件 存储 在 meta 后 级 的 文件 中 ， 而 将 权重 存储 在 ckpt 后 级 的 文件 
中 。 在 其 具体 使 用 时 , 对 于 模型 权重 的 注入 则 是 根据 相应 的 名 称 来 进行 。 因此 如 果 需 要 对 模型 
中 不 同 的 权重 进行 重新 注入 的 话 ， 那 么 第 一 步 就 是 需要 赋予 不 同 的 权重 以 名 称 。 


这 里 首先 使 用 了 tf.variable_scope 对 域 进行 了 定义 , 之 后 在 定义 域内 对 输入 变量 进行 赋值 。 
最 终 形成 的 名 称 为 : 


| 
1. 第 一 步 : 重新 定义 的 线性 回归 类 


首先 是 对 于 线性 回归 类 的 定义 , 在 前 面 已 经 说 了 , 需要 对 不 同 的 变量 或 者 占 位 符 以 及 不 同 
的 函数 定义 其 在 图 中 的 名 称 ， 这 里 为 了 简便 ， 只 定义 了 变量 和 占 位 符 的 名 称 。 


【程序 16-4】 
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从 程序 中 可 以 看 到 , 这 里 对 每 个 变量 或 占 位 符 都 设置 了 相应 的 名 称 , 而 对 变量 域 又 设置 了 
对 应 的 域名 。 


2. 第 二 步 : 重新 对 模型 进行 训练 
对 线性 类 重新 定义 后 ， 需 要 对 模型 进行 重新 训练 。 
【程序 16-5】 
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对 模型 的 训练 并 没有 较 多 的 变动 ， 这 里 根据 需要 打印 出 变量 a_val 的 节点 内 容 ， 如 图 16-4 
所 示 。 


name: “var/a_val” 
op: “Variable” 
attr { 
key: “container” 
value { 


ww 


CH 
} 
} 


16-4 a_val 的 节点 内 容 
可 以 看 到 , 其 中 的 节点 名 称 被 定义 为 “var/a_val”, 这 是 在 类 中 被 定义 时 赋予 的 变量 名 称 。 
3. 第 三 步 : 模型 的 恢复 


对 于 模型 的 恢复 来 说 , 需要 首先 恢复 模型 的 整个 图 文件 , 之 后 从 图 文件 中 读 取 相 应 的 节点 
信息 。 


saver 方法 首先 从 图 中 获取 了 整个 图 的 信息 ， 之 后 根据 节点 名 称 将 不 同 的 变量 或 者 占 位 符 
重新 按 名 称 赋值 。 
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而 对 于 具体 权重 的 恢复 则 需要 在 对 话 中 完成 。 





【程序 16-6】 





可 能 有 的 读者 注意 到 , 在 程序 中 采用 通过 名 称 获取 对 应 变量 值 的 时 候 , 冒号 的 右边 有 一 个 
0 符号 ， 这 是 在 TensorFlow 的 图 运行 中 为 了 进行 参数 的 复 用 而 使 用 的 标记 类 型 ， 这 里 读者 可 
以 对 其 忽略 而 直接 使 用 即 可 。 程 序 运行 的 最 终结 果 如 下 : 


[ 4.99703074] 


4. 第 四 步 : 恢复 模型 的 特定 值 


如 果 要 对 模型 的 某 个 特定 值 进 行 恢复 ,同样 可 以 使 用 这 个 首先 载 入 图 文件 之 后 使 用 权重 对 
其 赋值 的 办 法 。 


【程序 16-7】 
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可 以 看 到 这 里 只 定义 了 变量 a_val， 并 通过 相应 的 名 称 将 其 重新 获取 。 这 种 方法 可 以 获取 
到 模型 中 特定 的 变量 或 者 节点 的 值 。 最 终 显 示 结 果 如 下 : 


[ 4. 99703074] 
这 也 是 经 过 训练 后 a_val 的 值 。 





16.3 vGGNet 实 现 


本 节 开始 将 介绍 VGGNet, 它 是 在 ICLR 2015 上 展示 的 一 种 新 的 卷 积 神经 网 络 , 在 ImgNet 
上 达到 了 一 个 非常 好 的 辨别 率 。 特 别 值得 强调 的 是 ，VGGNet 能 够 在 其 他 以 DCNN 为 基础 的 
工程 上 达到 很 好 的 效果 ， 即 可 以 较为 广泛 地 在 其 后 使 用 Finetuning。 


16.3.1 VGGNet 模型 解读 及 与 AlexNet 比较 


首先 从 VGGNet 模型 的 结构 上 来 说 , 其 与 AlexNet 并 没有 太 大 区 别 , 事实 上 也 是 如 此 , 只 
不 过 增加 了 更 多 的 隐藏 层 ( 主 要 是 16 和 19) 。 相 对 其 他 模型 方法 ，VGG 的 参数 较 多 ， 调 整 
范围 大 ， 而 最 终生 成 的 模型 参数 是 AlexNet 的 3 倍 左右 。 

VGGNet 的 模型 如 图 16-5 所 示 。 





16-5 VGGNet 模 型 
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对 于 这 个 模型 ， 分 解 来 看 ，AlexNet 上 的 一 个 完整 的 卷 积 层 可 能 包括 一 层 convolution、 一 
层 Rectified Linear Units、 一 层 max-pooling、 一 层 normalization 。 而 整个 网 络 结构 包括 五 层 卷 
积 层 和 三 层 全 连接 层 ， 网 络 的 最 前 端 是 输入 图 片 的 原始 像素 点 ， 
从 VGGNet 的 结构 (图 16-6) 上 看 ， 相 对 AlexNet 来 说 ， 它 有 更 多 的 输出 channel， 即 输 
出 通道 ， 因 此 可 以 达到 更 高 和 更 细 粒 度 的 准确 性 ， 可 以 提取 出 来 更 多 的 信息 。 

Table 1: ConvNet configurations (shown in columns). The depth of the configurations increases 

fromthe left (A) to the right (E), as more layers are added (the added layers are shown in bold). The 


convolutional layer parameters are denoted as “conv(receptive field size)-(number of channels)”. 
The ReLU activation function is not shown for brevity. 


最 后 端 是 图 片 的 分 类 结果 。 










































































ConvNet Configuration 
A A-LRN B C D E 
11 weight | 11 weight | 13 weight | 16 weight | 16 weight | 19 weight 
layers layers layers layers layers layers 
input (224 x 224 RGB image) 

conv3-64 | conv3-64 Conv3-64 Conv3-64 conv3-64 conv3-64 
LRN conv3-64 Conv3-64 Conv3-64 Conv3-64 

maxpool 
conv3-128 | conv3-128 | conv3-128 | conv3-128 | conv3-128 | conv3-128 
Conv3-128 | conv3-128 | conv3-128 | conv3-128 

1 
Conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 
conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 
convl-256 | conv3-256 | conv3-256 
Conv3-256 

maxpool 
conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 
conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 
convl-512 | conv3-512 | conv3-512 
conv3-512 

maxpool 
conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 
conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 
convl-512 | conv3-512 | conv3-512 
conv3-512 

maxpool 

FC-4096 

FC-4096 

FC-1000 

Soft-max 











Table 2: Number of parameters 


in millions). 
C D 





Network 


AA-LRN 


B 











Number of parameters | 133 





133 








134 | 138 











相同 点 : 


图 16-6 ”VGGNet 结构 图 


VGGNet 和 AlexNet 特点 罗列 如 下 。 


@ 最 后 都 是 使 用 全 连接 层 作 为 计算 结果 。 
@ ”同样 使 用 五 组 卷 积 层 。 
@ 每 层 之 间 使 用 pooling 层 分 割 。 


不 同 点 : 


@ VGGNet 中 的 卷 积 层 卷 积 核 为 [3,3] 大 小 ， 而 AlexNet 中 卷 积 核 为 [7,7] 大 小 。VGGNet 
通过 模拟 AlexNet 的 结构 减少 了 卷 积 核 而 增加 了 层 数 。 
@ VGGNet 有 更 多 的 channel 数 。 





【第 16 章 我 们 都 爱 Finetuning 一 一 复 用 VGG16 进行 猫 狗 大 战 


16.3.2 VGGNet 模型 的 TensorFlow 实现 


对 于 程序 设计 人 员 来 说 ， 知 道 了 模型 对 其 进行 实现 并 不 是 一 件 困难 的 事 ， 按 照 16.1 节 的 
内 容 将 VGGNet 定义 成 一 个 类 进行 处 理 。 

1. 第 一 步 : 按 模型 定义 设 定 方法 

首先 是 对 类 定义 的 设计 ,与 AlexNet 模型 一 样 ， 在 模型 中 主要 使 用 了 卷 积 、 池 化 以 及 全 连 
接 方法 。 因 此 计算 的 第 一 步 就 是 在 类 中 予以 实现 。 

卷 积 的 方法 按 常 规定 义 即 可 ， 代 码 如 下 : 





卷 积 层 方法 的 定义 对 其 名 称 、 输入 数据 以 及 输出 通道 做 了 定义 。 首 先 获 取 了 输入 数据 的 层 
数 作为 输入 通道 数 ， 之 后 对 当前 层 中 的 变量 进行 初始 化 。 在 定义 域 中 定义 了 卷 积 层 的 名 称 ， 这 
样 做 的 好 处 是 可 以 根据 不 同 的 卷 积 层 对 变量 进行 命名 , 并 且 根 据 命 名 规则 ,所属 不 同 , 命名 域 
中 的 变量 也 会 自动 标记 上 不 同 的 名 称 。 

之 后 通过 调用 ttnn.conv2d 函数 求 取 卷 积 层 的 结果 ， 并 使 用 relu 函数 进行 结果 计算 。 

而 对 于 全 连接 层 的 定义 , 可 以 仿照 卷 积 层 的 定义 在 定义 域 中 予以 设计 , 之 后 通过 计算 获取 
全 连接 层 的 计算 结果 ， 代 码 如 下 : 





与 卷 积 层 方法 的 定义 类 似 , 在 方法 的 初始 化 中 对 名 称 、 输 入 数据 以 及 输出 通道 数 做 了 定义 。 
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需要 特别 提出 的 是 , 全 连接 层 是 对 数据 进行 了 一 个 展开 操作 , 因此 第 一 步 需要 获取 输入 展开 后 
的 全 部 维度 。 





这 里 采用 了 一 个 让 和 else 函数 对 其 进行 判定 , 之 后 将 判定 结果 赋值 给 size, 并 将 其 作为 全 


连接 层 的 输入 神经 元 个 数 。 
最 后 是 池 化 层 的 定义 。 对 于 池 化 层 ，VGGNet 使 用 的 是 maxpooling， 因 此 可 以 直接 定义 使 


用 。 


根据 VGGNet 模型 设计 ,无 论 是 池 化 层 , 还 是 卷 积 层 , 在 进行 计算 时 都 采用 了 补 全 padding 
的 方式 进行 ， 这 点 请 读者 在 程序 编写 时 注意 。 





2. 第 二 步 : 定义 模型 
对 于 模型 的 具体 定义 ， 根 据 VGGNet 模型 的 定义 将 模型 分 别 予以 编写 。 
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其 中 在 第 一 个 卷 积 层 设置 了 数据 输入 ， 即 selfimgs 是 数据 输入 ， 而 在 最 后 一 个 全 连接 层 
中 n_class 是 输出 分 类 。 
模型 类 完整 的 最 终 定义 如 下 : 
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可 以 看 到 ， 在 VGGNet 定义 类 中 的 初始 化 阶段 就 对 输入 值 进行 了 初始 化 ， 之 后 分 别 调用 
convlayers 函数 和 fc_layers 函数 进行 模型 的 定义 ， 之 后 将 fe8 的 计算 值 作为 结果 进行 定义 。 这 
样 做 的 好 处 在 于 ， 可 以 在 工程 的 任何 一 个 地 方 进行 函数 的 初始 化 ， 这 是 复 用 的 实现 。 

最 后 是 模型 的 训练 和 存储 以 及 对 模型 的 复 用 , 具体 内 容 请 读者 参阅 AlexNet 网 络 的 训练 方 
法 ， 采 用 训练 集 进行 处 理 。 


16 .A 使 用 已 训练 好 的 模型 和 权重 复 现 VGGNet 


到 目前 为 止 , 对 于 模型 的 设计 和 训练 读者 可 能 已 经 较为 熟悉 , 如 果 读 者 已 经 能 够 使 用 设计 
出 的 模型 进行 训练 并 取得 较 好 的 结果 的 话 ， 那 么 恭喜 你 ， 你 对 TensorFlow 程序 的 编写 已 经 可 
以 说 是 更 上 了 一 层 台阶 。 

但 是 在 实际 工程 或 者 商业 使 用 中 , 模型 的 训练 并 不 是 都 是 由 程序 设计 人 员 独 立 训练 , 而 是 
通过 复 用 已 有 的 神经 网 络 模 型 ， 导 入 已 训练 好 的 权重 数据 ， 从 而 实现 图 片 分 解 的 目的 。 

VGGNet 是 最 常用 的 深度 学 习 模型 ,在 各 种 图 片 分 类 和 更 深 一 步 的 语义 识别 、 图 像 分 割 上 
都 有 好 的 表现 ， 因 此 其 作为 最 常用 深度 学 习 基础 模型 被 大 量 采用 。 使 用 VGGNet 分 辨 物体 例 
子 如 图 16-7 所 示 。 
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“tabby cat” 
1 


convolutionalization 


y tabby cat heatmap 









16-7 ”使 用 VGGNet 分辨 物体 


16.4.1 npz 文件 的 读 取 
对 于 复 用 的 VGG 模型 ， 首 先 第 一 步 是 要 获取 其 相应 的 权重 文件 和 对 应 的 分 类 文件 ， 读 者 
可 以 在 以 下 地 址 下 载 相应 的 文件 (如 果 下 载 不 了 ， 可 以 到 本 书 网 盘 中 找 相应 的 文件 )。 
@ ”权重 文件 : https:W/www.cs.toronto.edu/~frossard/vgg16/vgg16_weights.npz 
@ ”分 类 文件 : https://www.cs.toronto.edu/~frossard/vgg16/imagenet_classes.py 
下 面 是 对 类 的 定义 , 在 上 一 节 中 已 经 根据 模型 的 设置 对 其 中 的 方法 做 了 说 明 , 因此 这 里 只 
需要 将 权重 注入 到 已 有 模型 当中 即 可 。 
对 于 下 载 下 的 vgg16_weights.npz 文件 的 说 明 , 需要 知道 的 是 npz 格式 的 文件 是 NumPy 包 
中 自 带 的 一 种 专用 的 二 进 制 文件 存储 格式 ， 并 且 NumPy 提供 了 多 种 存 取 其 内 容 的 文件 操作 函 
数 。 
数据 在 npz 中 是 以 字典 的 方式 进行 存储 ,使 用 时 可 使 用 NumPy 自 带 的 load 函数 对 其 进行 
载 入 。 
import numpy as np 
vgg_dcit = np.load('../vgg16 weights and classes/vgg16 weights.npz') 
可 以 看 到 , np 中 使 用 load 函数 获取 了 npz 格式 的 文件 , 之 后 将 其 作为 字典 赋值 给 vgg_dict 
变量 ， 而 对 其 的 读 取 可 以 使 用 类 似 字典 的 方式 进行 。 
【程序 16-8】 


import numpy as np 
vgg_dcit = np.load('../vgg16 weights and classes/vgg16 weights.npz') 





print (vgg dcit.keys()) 


打印 结果 如 下 : 
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['conv4 3 W','conv5 1 b','conv]l 2 b','conv$ 2 b','conv]l_1_W','conv$ 3 _b,'conv5 2 W', 
"conv5 3 W', 'convl_ 1 b', 'fe7 b', 'conv$s_1 W', 'conv]l 2 W', 'conv3 2 W', 'conv4 2 _b', 
‘conv4_1_b', 'conv3 3 W', 'conv2 1 _b', 'conv3_1_b', 'conv2 2 _W', 'fc6_b', 'fe8_b', 'conv4_3_b', 
‘conv2 2_b'，'fe6 W', 'fec8 _W', 'fe7 W', 'conv3 2 b', 'conv4 2 W', 'conv3 3 _b', 'conv3 1_W', 
'conv2 1 _W','conv4 1 _W'] 


可 以 看 到 这 里 的 key 值 是 每 个 卷 积 层 或 者 全 连接 层 的 名 称 。 如 果 继 续 更 深 一 步 , 读 出 对 应 
的 value 值 ， 则 可 以 通过 如 下 代码 ， 效 果 则 如 16-8 所 示 。 


[[ -4.03383434e-01 -1.74399972e-01 -1. 09849639e-01 ..., 
-1. 25688612e-01 -3.14026326e-01 -2.32839763e-01] 

[ -4.53501314e-01 4.62574959e-02 -6.67438358e-02 ..., 
-1. 03502415e-01 -3.45792353e-01 -2.92486250e-01] 

[ -3.67223352e-01 1.61688417e-01 -8.99365395e-02 ..., 
-1. 45945460e-01 -2.71823555e-01 -2.39718184e-01]]] 


[[[ -5.08716851e-02 -1.6600266le-01 1,56279504e-02 ,,., 
-1.49742723e-01 3.06801915e-01 8.,82701725e-02] 
[ -5. 86349145e-02 3.16787697e-02 7.59588331e-02 ...， 
-1.05017252e-01 3.39550197e-01 9.86374393e-02] 
[ -5.74681684e-02 1.29344285e-01 1.29030216e-02 ...， 
-1.41449392e-01 ”2. 41099641e-01 4.55602147e-02]] 


[[ -2. 85227507e-01 - 


.66666731e-01 -7.96697661e-03 ..., 
-1.09780088e-01 2.79203743e-01 9.46525261e-02] 

[ -3.30669671e-01 5.4710105le-02 4.86797579e-02 ..., 
-8. 29023942e-02 2.95466095e-01 7.44469985e-02] 

[ -2.62249678e-01 1.71572417e-01 5.44555223e-05 ..., 
-1.22728683e-01 2.44687453e-01 5.32913655e-02]] 


图 16-8 ”vgg_dict 对 应 的 key 值 
可 以 看 到 ， 每 个 不 同 的 key 值 对 应 着 一 个 相应 的 权 值 ， 而 通过 打印 相应 key 的 维度 值 为 : 
[| 


这 也 是 第 一 个 VGGNet 模型 中 第 一 个 卷 积 层 的 维度 。 


16.4.2 ” 复 用 的 VGGNet 模型 定义 


对 复 用 模型 类 来 说 ， 最 关键 的 一 步 是 复 用 其 中 已 训练 好 的 权重 参数 。 而 通过 使 用 load 方 
法 ， 可 以 将 其 中 所 包含 的 数据 以 字典 的 形式 读 出 ， 之 后 根据 参数 的 不 同 予 以 载 入 。 


1. 第 一 步 : 定义 VGGNet 的 复 用 类 
首先 是 对 于 类 的 定义 , 前 面 已 经 说 过 ,如 果 想 要 复 用 已 训练 完毕 的 权重 参数 ， 则 需要 在 模 
型 中 将 其 作为 参数 进行 输入 。 而 类 中 输入 参数 的 方式 就 是 将 参数 在 整个 类 中 共享 , 基于 此 思路 
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共享 ， 可 以 在 类 的 初始 化 时 加 入 一 个 全 局 列表 ， 将 所 需要 共享 的 参数 加 载 至 类 中 。 代 码 如 下 : 





init 中 定义 的 参数 与 自 训练 的 类 中 相同 ， 但 是 多 设置 了 一 个 parameters 列表 ， 其 作用 是 将 
各 个 层 产生 的 数据 以 列表 元 素 的 方式 加 载 到 其 中 。 





而 同样 在 卷 积 层 方法 的 定义 时 , 在 所 有 的 参数 定义 后 , 需要 一 个 将 参数 加 载 到 相对 应 的 列 
表 中 的 方法 ， 即 使 用 self.parameters += [kernel, biases] 代码 将 定义 的 卷 积 核 和 偏 置 值 输入 到 参 
数列 表 中 。 

对 于 全 连接 层 的 定义 也 一 样 。 





在 对 所 有 的 参数 定义 完毕 后 ， 使 用 self.parameters += [weights, biases] 方法 将 定义 的 参数 
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加 入 列表 中 。 
而 池 化 层 和 saver 方法 对 类 的 定义 没有 影响 , 因此 可 以 根据 以 前 的 定义 方法 重新 定义 , 即 : 





最 后 一 个 非常 重要 的 方法 就 是 将 获取 的 权重 参数 重 载 入 VGGNet 模型 中 ， 代 码 如 下 : 





这 里 首先 使 用 np.load 方法 载 入 权重 文件 ， 之 后 对 获取 的 字典 值 进行 一 个 排序 ， 之 后 使 用 
一 个 enumerate 方法 将 数据 迭代 出 ， 这 里 迭代 的 结果 是 序号 以 及 key 值 ， 之 后 执行 一 个 赋值 操 
作 将 对 应 的 权重 值 赋值 到 参数 列表 中 。 

全 部 代码 如 程序 16-9 所 示 。 


【程序 16-9】 
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程序 中 各 个 层次 的 定义 和 模型 中 设计 相同 ，selfimgs 是 输入 数据 ， 而 self.fe8 是 结果 的 最 
终 输出 值 。 


2. 第 二 步 : 定义 模型 的 使 用 和 权重 的 载 入 


对 于 模型 的 使 用 , 可 以 直接 通过 实现 类 中 所 定义 的 方法 进行 。 由 于 无 须 对 模型 进行 重新 定 
义 ， 因 此 可 以 通过 对 数据 的 输入 而 直接 获得 结果 。 代 码 如 下 所 示 。 


【程序 16-10】 
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首先 获取 了 VGGNet 模型 的 初始 化 ， 在 初始 化 过 程 中 就 将 需要 分 辩 的 图 载 入 ， 之 后 获取 
模型 的 预测 值 。 这 里 可 能 有 读者 会 提出 疑问 , 此 时 载 入 的 图 形 是 否 开始 计算 。 而 结果 是 否定 的 ， 
真正 的 计算 是 在 会 话 开始 后 ， 此 时 输入 的 也 仅仅 是 一 个 占 位 符 而 已 。 





模型 权重 的 载 入 和 计算 都 是 在 会 话 开始 后 才 可 以 进行 ， 而 在 此 期 间 必 须 获取 相对 应 的 
Saver 类 ， 这 点 请 读者 注意 。 





最 后 是 对 分 类 结果 的 打印 ， 计 算 结 果 生 成 的 一 系列 key 值 和 概率 的 对 应 表 ， 笔 者 取 前 5 
个 最 大 可 信 的 概率 ， 例 如 输入 的 图 片 如 图 16-9 所 示 。 





图 16-9 一 个 猫 的 图 片 
这 是 一 个 猫 的 图 片 ， 将 其 输入 到 模型 中 ， 其 最 终 验证 如 下 : 
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可 以 看 到 图 中 埃及 猫 的 概率 被 确认 为 0.536496, 下 面 依次 为 其 他 类 型 的 猫 , 因此 可 以 确定 
VGGNet 在 此 的 复 用 是 有 效 的 。 
16.4.3 ”保存 复 用 的 VGGNet 模型 为 TensorFlow 格式 


如 果 对 使 用 后 的 VGGNet 模型 进行 保存 ， 则 需要 获取 相对 应 的 Saver 类 。 这 里 读者 可 能 已 
经 注意 到 了 ,在 设计 VGGNet 类 的 时 候 ， 已 经 在 其 中 定义 了 Saver 类 ， 因 此 可 以 在 其 中 直接 载 
入 数据 之 后 对 模型 进行 保存 即 可 。 


【程序 16-11】 





而 对 于 复 用 已 经 保存 好 的 TensorFlow 文件 格式 ， 则 可 以 使 用 重新 定义 类 之 后 在 其 中 对 整 
个 模型 图 进行 载 入 的 方式 进行 ， 其 代码 如 下 : 


【程序 16-12】 
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有 具体 用 法 与 16.4.2 小 节 中 的 用 法 一 样 ， 这 里 就 不 再 过 多 痔 述 。 通 过 输入 图 16-9 同样 的 一 
张 猫 的 图 片 ， 其 最 终 验证 如 下 : 


除了 本 小 节 中 提出 的 方法 ， 载 入 TensorFlow 模型 直接 保存 的 参数 和 权重 进行 图 片 的 判定 
也 是 一 种 常用 的 方法 ， 限 于 篇 幅 的 关系 请 读者 自行 完成 。 





16.5 锋 和 0 大 战 V2 一 一 
Finetuning 使 用 VGGNet 进行 图 像 判 断 


在 上 面 的 例子 中 ， 对 使 用 已 有 的 VGGNet 模型 去 进行 图 像 预 测 已 经 获得 了 成 功 ， 但 是 对 
于 使 用 TensorFlow 进行 图 片 预测 的 人 员 来 说 ， 不 是 泛 化 地 使 用 VGGNet 在 本 身 模型 参数 所 带 
的 1000 个 类 别 中 判断 所 属 或 者 近似 的 类 别 ， 而 是 对 其 更 进一步 的 需求 专 精 一 项 分 类 ， 这 是 一 
项 非常 重要 的 工作 ， 需 要 对 模型 进行 重新 的 Finetuning 复 用 。 


16.5.1 Finetuning 基本 理解 


1. 问 : Finetuning 是 什么 ? 

简单 地 理解 ，Finetuning 就 是 在 对 已 训练 好 的 模型 进行 微调 ， 相 当 于 使 用 别人 的 模型 的 前 
几 层 来 提取 浅 层 特征 , 从 而 让 其 在 所 需要 针对 的 训练 集 上 的 判别 能 力 更 强 、 更 加 适合 所 需要 的 
判断 。 

例如 在 VGGNet 中 所 能 够 判别 的 是 1000 类 物体 ， 然 而 事实 上 并 不 需要 对 那么 多 物体 进行 
判断 , 而 只 需要 判断 所 特有 的 一 些 针 对 性 物体 , 因此 可 以 使 用 已 有 的 网 络 微调 并 重新 训练 使 其 
更 具有 针对 性 。 
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2. 问 : 为 什么 使 用 Finetuning ? 

一 般 来 说 程序 设计 人 员 需 要 做 的 方向 , 比如 在 一 些 特定 的 领域 的 图 像 识别 中 , 很 难 获取 到 
大 量 的 数据 ， 即 使 像 在 ImageNet 上 这 种 巨型 的 图 像 数 据 库 中 ， 通 常 某 一 特定 领域 的 图 像 也 只 
有 几 千 张 或 者 几 万 张 ,在 这 种 情况 下 重新 训练 一 个 新 的 网 络 是 比较 复杂 的 ,而 且 参 数 不 好 调整 ， 
数据 量 也 不 够 ， 因 此 Finetuning 微调 就 是 一 个 比较 理想 的 选择 。 

3. 问 : Finetuning 的 好 处 ? 

对 于 使 用 同样 的 训练 集 来 说 , 使 用 Finetuning 的 一 个 最 显而易见 的 好 处 就 是 明显 地 节省 大 
量 的 训练 时 间 , 不 用 完全 重新 训练 模型 ， 从 而 提高 效率 。 因 为 一 般 新 训练 模型 准确 率 都 会 从 很 
低 的 值 开始 慢 慢 上 升 ， 但 是 Finetuning 能 够 在 比较 少 的 迭代 次 数 之 后 得 到 一 个 比较 好 的 效果 。 
在 数据 量 不 是 很 大 的 情况 下 ，Finetuning 会 是 一 个 比较 好 的 选择 。 

例如 使 用 卷 积 神经 网 络 在 cifar100 上 训练 ， 之 后 根据 需要 修改 最 后 一 层 softmax 的 输出 节 
点 个 数 〈100 改 为 10) ， 再 放 到 cifar10 上 训练 ， 那 么 对 于 计算 函数 收敛 的 时 间 经 过 训练 的 卷 
积 神经 网 络 只 需要 1000 次 的 迭代 即 可 完成 收敛 ;而 全 新 训练 的 网 络 需 要 经 过 4000 次 的 迭代 次 
数 才能 完成 收敛 。 

4. 问 : Finetuning 可 以 使 用 哪些 网 络 ? 


对 于 大 多 数 预 训 练 的 网 络 都 可 以 使 用 Finetuning 来 处 理 ， 例 如 AlexNet、VGGNet 和 后 面 
学 习 的 ResNet。 

5. 问 : Finetuning 的 最 大 好 处 是 什么 ? 

对 于 很 多 图 像 识 别 ， 不 需要 重新 建 模 并 从 头 训练 ， 可 以 在 ILSVRC 大 赛 中 寻找 类 似 的 比 
较 好 的 结果 ， 然 后 下 载 预 训练 的 模型 ， 根 据 对 应 任务 来 微调 模型 即 可 ; 尤其 是 当 所 收集 的 数据 
集 相 对 较 少时 ， 就 更 适合 选择 这 种 办 法 。Finetuning 既 可 以 有 效 利用 深度 神经 网 络 强 大 的 泛 化 
能 力 ， 又 可 以 免 去 设计 复杂 的 模型 以 及 耗 时 良久 的 训练 。 

6. 问 : Finetuning 为 什么 有 效果 ? 

这 是 一 个 非常 困难 的 问题 ， 已 经 超越 了 本 书 的 阅读 水 平 。 笔 者 尝试 地 对 其 进行 解释 。 

在 多 层 卷 积 神经 网 络 中 , 卷 积 层 的 作用 主要 是 用 作 特 征 提取 ， 随 着 卷 积 层 的 加 深 ， 其 特征 
提取 的 粒度 也 越 来 越 细 。 卷 积 神经 网 络 提取 出 的 前 几 层 特 征 一 般 是 比较 通用 的 , 而 后 面 几 层 可 
能 会 包含 更 多 原始 训练 集 的 细节 ， 因 此 可 以 对 其 重复 进行 使 用 。 

一 般 深度 学 习 模型 的 最 后 几 层 都 是 全 连接 层 , 其 作用 是 用 作 分 类 , 因此 可 以 将 其 替换 成 使 
用 者 所 需要 的 结构 对 特定 目标 作出 分 类 。 

即 卷 积 神经 网 络 前 几 层 学 到 的 是 通用 特征 , 后 面 几 层 学 到 的 是 与 类 别 相 关 的 特征 , 而 具体 
分 类 的 特征 层 在 最 后 。 

7. 问 : 使 用 Finetuning 的 关键 是 什么 ? 

使 用 Finetuning 的 关键 是 新 数据 集 的 大 小 和 原 数据 集 的 相似 程度 。 主 要 在 以 下 几 点 : 
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@ 新 数据 集 比较 小 且 和 原 数据 集 相 似 。 因 为 新 数据 集 比 较 小 ,如果 Finetuning 可 能 会 过 
拟 合 ; 又 因为 新 旧 数 据 集 类 似 ， 我 们 期 望 它 们 高 层 特征 类 似 ， 可 以 使 用 预 训练 网 络 当 
作 特 征 提取 器 ， 用 提取 的 特征 训练 线性 分 类 器 。 

@ 新 数据 集 大 且 和 原 数 据 集 相 似 。 因 为 新 数据 集 足 够 大 ， 可 以 Finetuning 整个 网 络 。 

@ ”新 数据 集 小 且 和 原 数据 集 不 相似 。 新 数据 集 小 ， 最 好 不 要 Finetuning， 和 原 数据 集 不 
类 似 ， 最 好 也 不 使 用 高 层 特征 。 

@ ”新 数据 集 大 且 和 原 数据 集 不 相似 。 因 为 新 数据 集 足够 大 ， 可 以 重新 训练 。 但 是 实践 中 
Finetuning 预 训练 模型 还 是 有 益 的 。 


16.5.2” 猫 狗 大 战 一 一 Finetuning 使 用 VGGNet 


现在 进入 本 章 的 重点 内 容 , 使 用 Finetuning 对 VGGNet 进行 调整 ， 从 而 针对 猎狗 大 战 的 训 
练 集 进 行 训 练 。 


1. 第 一 步 : 对 异型 的 修改 


首先 是 对 模型 的 修改 ， 在 这 里 原先 的 输出 结果 是 对 1000 个 不 同 的 类 别 进行 判定 ， 而 在 此 
则 是 对 2 个 图 像 , 也 就 是 猫 和 狗 的 图 像 进行 判定 , 因此 首先 第 一 步 就 是 修改 输出 层 的 全 连接 数 
据 。 





这 里 最 后 一 层 的 输出 通道 被 设置 成 2， 也 就 是 表达 了 对 于 分 类 的 最 终结 果 ， 只 需要 将 其 分 
成 两 类 即 可 ， 而 对 于 其 他 部 分 ， 定 义 创建 卷 积 层 和 全 连接 层 的 方法 则 无 须 做 出 太 大 的 改动 。 
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在 这 里 可 能 有 读者 已 经 注意 ， 在 介绍 全 连接 层 的 输出 修改 时 ， 就 有 一 个 额外 的 输入 参数 : 


而 在 卷 积 层 和 全 连接 层 的 定义 中 ， 也 添加 了 这 个 参数 : 


直接 的 解释 就 是 ， 在 进行 Finetuning 对 模型 重新 训练 时 ， 对 于 部 分 不 需要 训练 的 层 可 以 通 
过 设置 trainable=False 来 确保 其 在 训练 过 程 中 不 会 因为 训练 而 修改 权 值 。 

下 面 还 有 一 个 非常 重要 的 函数 是 VGGNet 权重 的 载 入 。 在 前 面 介绍 时 已 经 说 了 ， 对 于 权 
重 的 载 入 文件 npz， 是 以 键 值 对 的 字典 模型 进行 保存 。 而 Python 对 字典 的 使 用 可 以 根据 其 标 
记 序列 号 的 形式 对 其 读 取 , 因此 可 以 根据 剔除 不 要 的 序号 而 对 模型 进行 有 针对 性 地 载 入 , 具体 





可 以 看 到 ， 这 里 使 用 了 一 个 让 函数 对 序号 进行 剔除 ， 即 对 于 最 后 一 层 的 权重 不 要 载 入 。 
【程序 16-13】 
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可 以 看 到 ， 对 于 每 个 卷 积 层 和 全 连接 层 中 ， 不 需要 训练 的 权重 全 部 被 设置 为 
trainable=False。 这 样 做 的 好 处 是 在 Finetuning 的 计算 过 程 中 不 参与 权重 的 重新 计算 。 


2. 第 二 步 : 数据 的 输入 


对 于 修改 后 的 模型 ， 需 要 对 其 进行 重新 训练 ， 而 训练 的 首要 条 件 就 是 数据 的 输入 , 在 这 里 
笔者 使 用 数据 的 输入 流 方 式 。 
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这 里 定义 的 get_file 函数 对 输入 的 文件 夹 进行 分 类 ， 通 过 以 不 同 的 文件 夹 作 为 分 类 标准 将 
图 片 类 型 分 成 2 类 ， 使 用 2 个 列表 文件 分 别 用 来 存储 图 片 地 址 和 对 应 的 标记 地 址 。 





get_batch 函数 是 通过 对 列表 地 址 的 读 取 而 循环 载 入 具有 参数 batch_size 大 小 而 定 的 图 片 ， 
并 读 取 相应 的 标签 作为 数据 标签 一 同 进行 对 数据 的 训练 。 完 整 的 定义 如 下 。 


程序 16-14 被 命名 为 “create_and read_TFRecord2”， 作 为 辅助 程序 包 在 模型 训练 过 程 中 
不 停 地 输入 相应 的 图 片 数据 。 





【程序 16-14】 
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除 此 之 外 还 有 一 个 非常 重要 的 函数 是 对 生成 标签 的 处 理 ， 这 里 根据 不 同 的 标签 最 终 以 
one-hot 的 方式 对 数据 进行 表示 ， 代 码 如 下 : 





3. 第 三 步 : 模型 的 重新 训练 与 存储 
Finetuning 最 重要 的 一 个 步骤 就 是 模型 的 重新 训练 与 存储 。 


首先 对 于 模型 的 值 的 输出 , 在 类 中 已 经 做 了 定义 , 因此 只 需要 将 定义 的 模型 类 初始 化 后 将 
输出 赋予 一 个 特定 的 变量 即 可 。 





这 里 同时 定义 了 损失 函数 已 经 最 小 化 方法 。 
完整 代码 如 下 所 示 。 


【程序 16-15】 
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在 训练 函数 中 使 用 了 TensorFlow 的 队列 方式 进行 数据 的 输入 ， 而 对 于 权重 的 重新 载 入 也 
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使 用 的 是 与 前 面 章 节 所 类 似 的 方式 .最 终 在 数据 进行 循环 100 次 的 训练 后 将 整个 模型 存储 在 相 
应 的 文件 夹 中 。 


在 程序 16-14 的 训练 中 笔者 使 用 1 次 循环 所 经 历 的 时 间 约 为 22 秒 ， 这 个 时 间 是 在 大 多 数 
的 层级 处 理 不 可 训练 状态 所 用 的 时 间 。 而 如 果 将 所 有 训练 层 数 设 置 为 可 训练 , 即 可 以 通过 
反 向 求 导 进 行 重新 权重 计算 的 话 ， 那 么 时 间 会 延长 到 45 秒 左右 一 次 。 更 细 一 步 地 说 明了 
卷 积 层 训练 所 花费 的 时 间 占 训练 花费 的 大 多 数 时 间 , 因 此 可 以 明确 地 得 到 将 卷 积 层 设置 成 
不 可 训练 是 最 为 节省 时 间 的 过 程 。 











4. 第 四 步 : 模型 的 复 用 
对 于 模型 的 复 用 ， 代 码 如 下 : 
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首先 重新 载 入 存储 的 模型 参数 ， 这 也 是 训练 后 的 新 的 Finetuning 后 的 模型 , 这 里 笔者 输入 
测试 集 进行 判定 。 在 2000 张 图 片 中 其 准确 率 可 以 达到 84.7% 的 水 平 , 这 也 是 比较 高 的 识别 率 。 


16.6 本 章 小 结 


本 章 主 要 分 成 两 个 部 分 : 第 一 部 分 是 使 用 已 训练 好 的 权重 复 用 了 VGGNet 神经 网 络 ， 学 
习 了 使 用 和 恢复 的 保存 方法 。 对 于 使 用 已 训练 好 权重 的 原因 在 Finetuning 的 解释 中 也 做 了 详细 
说 明 。 第 二 部 分 是 采用 了 Finetuning， 可 以 适合 不 同 目标 的 判别 。 

本 章 内 容 非 常 重要 ， 可 以 用 在 现实 中 的 商业 或 者 工业 上 ，Finetuning 是 必 不 可 少 的 一 个 程 
序 ， 而 且 在 后 面 的 图 像 判 定 和 语义 分 割 上 ，VGGNet 也 起 基础 的 作用 。 

本 章 只 是 一 个 开始 ， 以 后 的 内 容 中 将 会 学 习 更 多 、 更 重要 的 对 图 像 处 理 模型 及 其 实现 和 
Finetuning 的 方法 ， 这 样 可 以 帮助 读者 更 好 地 去 适应 更 多 的 场景 。 
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开始 找 工作 吧 。 

现在 的 你 可 以 考虑 是 选择 一 份 月 薪 20K+ 期 权 的 工作 ， 还 是 选择 一 份 月 薪 13K+ 提 供 住房 
和 期 权 的 工作 而 苦恼 了 。 不 好 意思 , 笔者 无 法 在 这 上 面 给 出 任何 建议 , 但 是 如 果 读 者 把 本 章 和 
后 面 的 章节 继续 学 完 ， 就 完全 可 以 考虑 在 原先 的 待遇 基础 上 翻 倍 或 者 提高 三 倍 。 

怎么 样 , 这 是 一 个 非常 好 的 建议 吧 , 读者 还 有 什么 理由 不 好 好 纪 I 下 去 呢 ? 本 章 将 解 
决 一 些 常用 的 理论 性 的 问题 ， 这 些 问 题 看 似 简 单 却 对 深度 学 习 有 着 非常 重要 的 影响 。 





4 mE 
深度 学 习 面试 常用 问题 答疑 
身 为 高校 教师 和 技术 人 员 的 双重 身份 ,常常 为 使 用 哪些 问题 能 够 真正 分 辩 册 那些 具有 真正 
水 平 的 面试 人 员 而 苦恼 ， 如 图 17-1 所 示 为 深度 学 习 面试 图 片 。 但 是 更 深 一 步 地 说 ， 一 些 常用 
的 问题 都 无 外 乎 这 几 点 ， 过 拟 合 的 处 理 、 全 连接 层 的 作用 以 及 卷 积 核 大 小 的 关系 。 





图 17-1 深度 学 习 面试 


这 些 都 是 深度 学 习 中 最 为 基础 的 内 容 ,对 这 些 问 题 的 理解 能 够 帮助 读者 和 使 用 者 更 好 地 理 
解 深度 学 习 和 卷 积 神经 网 络 。 
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17.1.1 如何 降低 过 拟 合 

如 何 降低 过 拟 合 (Overfitting) ? 这 是 每 一 个 深度 学 习 的 面试 者 都 要 面 对 的 问题 。 这 里 笔 
者 对 其 进行 一 个 完整 的 回答 。 

1. 问 : 什么 是 过 拟 合 ? 

在 深度 学 习 过 程 中 ,模型 对 于 所 提供 的 数据 进行 一 致 性 假设 而 使 模型 变 得 过 度 复杂 称 为 过 
拟 合 。 

2. 问 : 过 拟 合 带 来 的 危害 ? 

“一 个 过 配 的 模型 试图 连 误差 (噪音 ) 都 去 解释 (而 实际 上 噪音 又 是 不 需要 解释 的 ) ， 导 
致 泛 化 能 力 比 较 差 ， 显 然 就 过 犹 不 及 了 。” 这 人 句 话 很 好 地 诠释 了 过 拟 合 带 来 的 危害 。 具体 表现 
在 : 深度 学 习 的 模型 在 提供 的 训练 集 上 效果 非常 好 , 但 是 在 未 经 过 训练 集 观察 的 测试 集 上 , 模 
型 的 效果 很 差 ， 即 输出 的 泛 化 能 力 很 弱 。 

3. 问 : 那 如 何 解决 过 拟 合 ? 

过 拟 合 的 解决 办 法 很 多 ， 目 前 常用 的 有 以 下 几 种 。 


(1) 获取 和 使 用 更 多 的 数据 集 

对 于 解决 过 拟 合 的 办 法 就 是 给 予 足够 多 的 数据 集 , 让 模型 在 更 可 能 多 的 数据 上 进行 "观察 ” 
和 拟 合 ， 从 而 不 断 修正 自己 。 然 而 事实 上 ， 收 集 无 限 多 的 数据 集 似乎 是 不 可 能 的 ， 因 此 一 个 常 
用 的 办 法 就 是 调整 已 有 的 数据 ,添加 大 量 的 “噪音 ”,， 或 者 对 图 形 进行 锐 化、 旋转 、 明 暗 度 调 
整 等 优化 。 

额外 说 一 句 ， 卷 积 神经 网 络 在 图 像 识别 的 过 程 中 有 强大 的 “不 变性 ”规则 ， 即 待 辨 识 的 物 
体 在 图 像 中 的 形状 、 姿 势 、 位 置 、 明 暗 度 都 不 会 影响 分 类 结果 。 


(2) 采用 合适 的 模型 

目前 来 说 , 针对 不 同 的 情况 和 分 类 要 求 , 对 使 用 的 模型 也 是 千差万别 。 过 于 简单 或 者 过 于 
复杂 的 模型 都 会 带 来 过 拟 合 问题 。 

对 于 模型 的 设计 ， 目 前 公认 的 一 个 深度 学 习 规 律 “deeper is better”。 国 内 外 各 种 大 牛 通 
过 多 种 实验 和 竞赛 发 现 ， 对 于 卷 积 神经 网 络 来 说 ,， 层 数 越 多 效果 越 好 , 但 是 也 更 容易 产生 过 拟 
合 ， 并 且 计 算 所 耗费 的 时 间 也 越 大 。 因 此 对 于 模型 的 设计 需要 合理 参考 各 种 模型 的 取舍 。 

(3) 使 用 Dropout 

Dropout 是 一 个 非常 有 用 和 常用 的 方法 ， 如 图 17-2 所 示 。Dropout 指 的 是 模型 在 训练 过 程 
中 每 次 按 50% 的 几率 关闭 或 忽略 某 些 层 的 节点 。 使 得 模型 在 使 用 同样 的 数据 进行 训练 时 相当 
于 从 不 同 的 模型 中 随机 选择 一 个 进行 训练 。 
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图 17-2 ”Dropout 模型 训练 


至 于 Dropout 起 作用 的 原因 , 可 以 简单 地 理解 成 在 训练 过 程 中 会 产生 不 同 的 训练 模型 ,不 
同 的 训练 模型 也 会 产生 不 同 的 计算 结果 , 随 着 训练 的 不 断 进行 ,计算 结果 会 在 一 个 范围 内 波动 ， 
但 是 均值 却 不 会 有 很 大 变化 ， 因 此 可 以 把 最 终 的 训练 结果 看 作 是 不 同 模型 的 平均 输出 。 

(4) 权重 衰减 (Weight-decay) 

权重 衰减 (Weight-decay ) 又 被 称 为 正则 化 ， 具 体 做 法 是 将 权 值 的 大 小 加 入 到 损失 函数 
中 。 


Loss = 1oss + reg(w,) 
在 实际 使 用 中 分 成 LI 正则 和 L2 正则 ， 即 : 


有 1= 全 |e| 慷 肖 让 机 bg 多 乔 航次 现 之 厅 天 和 


及 = 站 罗 史 所有权 更 0 括 方 光 弄 ,之 后 滋 以 字 





其 中 这 LI1 正则 化 是 对 所 有 权重 w 的 绝对 值 求 和 ， 之 后 和 以 全， 而 L2 正则 化 是 所 有 权重 
oo 的 平方 求 和 ， 之 后 入 全， 
nn 


这 里 顺便 尝试 解释 一 下 正则 化 能 够 防止 过 拟 合 的 原因 。 首先 可 以 知道 , 神经 网 络 的 计算 核 
心 是 误差 的 反 向 传播 ， 即 增 大 的 误差 项 会 对 每 个 神经 元 的 权重 发 生 影响 。 利 用 公式 说 明 ， 即 : 
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二 妆 天 食 有 下风 化 计 开 协和 检 重 。 


下 一 大 太 2 天 岂 厅 大 下 变化 。 


oO=U- 一 )o-7 
n 


可 以 看 到 , 相对 于 不 使 用 L2 正则 化 时 ，@ 的 值 变 为 《1 一 加 因为 其 中 的 参数 均 为 正 ， 


可 以 知道 括号 内 的 值 小 于 1， 其 效果 就 是 减少 的 值 ， 这 也 是 权重 衰减 (Weight-decay〉 名称 
的 由 来 。 

在 过 拟 合 产 生 的 时 候 , 模型 因为 要 对 所 有 特征 进行 拟 合 , 因此 在 一 个 原本 平滑 的 拟 合 曲线 
上 会 产生 大 量 的 急促 变化 的 凸 起 或 者 凹陷 ， 从 数学 上 表示 就 是 某 些 点 的 导数 值 非常 大 ， 如 图 
17-3 所 示 。 





图 17-3 ”过 拟 合 曲线 
过 大 的 导数 值 从 拟 合 出 的 模型 上 来 看 ， 数 学 模型 的 系数 会 非常 大 ， 即 权重 值 也 会 非常 大 ， 
这 也 是 模型 设计 人 员 所 不 希望 产生 的 。 而 正则 化 的 加 入 在 一 定 程度 上 缓解 了 此 问题 , 通过 对 权 
重 值 在 一 定 范围 内 的 修正 ， 使 其 不 要 偏离 一 个 均值 太 大 从 而 减少 过 拟 合 产 生 的 原因 。 


(5) Early Stopping 

Early Stopping 是 参数 微调 中 的 一 种 , 即 在 每 个 循环 结束 一 次 以 后 (这 里 的 循环 可 能 是 full 
data batch， 也 可 能 是 mini batch size) ， 计 算 模 型 的 准确 率 (accuracy) 。 当 准确 率 不 再 增加 时 
就 停止 训练 。 

这 是 一 种 非常 简单 和 自然 的 办 法 , 准确 率 不 再 增加 时 就 停止 训练 , 防止 模型 对 已 有 的 数据 
继续 训练 。 但 是 问题 在 于 , 准确 率 在 每 个 循环 之 后 的 计算 是 变化 的 , 没有 任何 人 和 任何 模型 能 
保证 准确 率 不 会 变化 ,可 能 某 次 循环 结束 后 , 准确 率 很 高 , 但 是 下 一 轮 结束 后 准确 率 又 降 得 很 
低 。 

这 里 笔者 建议 的 一 个 办 法 是 人 为 地 设 定 一 个 范围 。 当 连续 10 次 准确 率 在 此 范围 内 波动 时 
候 就 停止 循环 。 
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(6) 可 变化 的 学 习 率 
可 变化 的 学 习 率 也 是 根据 模型 计算 出 的 准确 率 进行 调整 ,一 个 简单 的 方法 是 在 人 为 设 定 的 
准确 率 范围 内 ， 达 到 10 次 范围 内 的 波动 后 ， 依 次 将 准确 率 减 半 ， 直 到 最 终 的 准确 率 降 为 原始 
的 1/1024 时 停止 模型 的 训练 。 
至 于 学 习 率 变化 和 第 5 条 Early Stopping 能 够 起 作用 ,笔者 的 猜测 是 随 着 训练 时 间 的 延长 ， 
部 分 神经 元 已 经 达到 拟 合 状 态 , 对 其 继续 训练 的 话 , 这 部 分 预先 达到 饱和 的 神经 元 会 继续 增长 
从 而 带 来 模型 的 过 拟 合 。 


(7) 使 用 Btach_Normalization 
还 有 一 个 数据 的 处 理 方法 是 Btach_Normalization， 即 数据 在 经 过 卷 积 层 之 后 ,真正 进入 激 
活 函 数 之 前 需要 对 其 进行 一 次 Btach_Normalization, 分 批 对 输入 的 数据 求 取 均 值 和 方差 之 后 重 
新 对 数据 进行 归 一 化 计算 。 
这 样 做 的 好 处 就 是 对 数据 进行 一 定 程度 上 的 预 处 理 , 使 得 无 论 是 训练 数据 集 还 是 测试 集 都 
在 一 定 范围 内 进行 分 布 和 波动 , 对 数据 点 中 包含 的 误差 进行 掩盖 化 处 理 ， 从 而 增 大 模型 的 泛 化 
能 力 。 具 体 公 式 如 下 : 








Input: Values of x over a mini-batch: B = {71.m)}: 
Parameters to be leamed: 7. 8 
Output: {y = BN, s(7i)} 
1 mm 
Bt 元 2 Li I mini-batch mean 
1 亚 
5 pC — LB) // mini-batch variance 
记 1 
ss /normalize 
VoB+e 
Vit YFi+ B=BNy,s(Ti) /scale and shift 








Algorithm 1: Batch Normalizing Transform. applied to 
activation Z over a mini-batch. 
这 里 笔者 不 再 进一步 地 解释 ,读者 所 需要 知道 的 是 y 和 65 分别 为 “ 重 构 参数 ”用 以 恢复 计 
算 后 数据 的 分 布 情况 。 理论 上 来 说 , 每 个 神经 元 都 需要 一 个 单独 的 重 构 参数 对 其 输入 的 数据 进 
行 计算 , 但 是 为 了 减少 计算 量 的 关系 ,在 每 一 层 的 神经 元 中 , 统一 使 用 同一 套 重 构 参数 进行 数 
据 的 恢复 ， 即 权 值 共享 。 
4. 问 : 除 此 之 外 还 有 哪些 常用 的 消除 过 拟 合 的 方法 ? 
除了 上 面 提 到 的 内 容 ， 还 有 常用 的 是 交叉 验证 、PCA 特征 提取 、 增 加 各 种 噪音 等 。 这 样 
实际 上 还 是 属于 增加 了 数据 集 , 增加 数据 集 是 解决 过 拟 合 的 根本 性 方法 。 除 此 之 外 对 于 模型 来 
说 ， 尽 量 选择 较为 简单 的 模型 也 是 解决 过 拟 合 的 一 个 常用 办 法 。 
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17.1.2 ”全 连接 层 详解 


对 于 目前 学 习 的 卷 积 神经 网 络 来 说 , 卷 积 层 作为 特征 提取 的 手段 , 在 输出 的 最 后 都 是 由 全 
连接 层 做 数据 的 分 类 层 。 因 此 也 可 以 说 全 连接 层 在 整个 卷 积 神经 网 络 中 是 起 到 一 个 “分 类 器 ” 
的 作用 。 从 数学 解释 就 是 , 全 连接 层 起 到 一 个 投影 空间 映射 的 作用 , 将 提取 的 数据 特征 从 一 个 
特征 空间 投射 到 不 同 的 特征 空间 ， 低 维 到 高 维 。 

但 是 在 实际 使 用 中 , 神经 网 络 训练 后 的 权重 都 是 在 全 连接 层 中 , 因此 现在 的 趋势 是 需要 将 
全 连接 层 由 卷 积 层 进行 蔡 换 。 目 前 已 经 有 将 全 连接 层 由 卷 积 核 为 [1.1] 的 卷 积 层 蔡 代 的 趋势 。 

以 前 面 的 VGGNet 为 例 , 最 后 一 层 的 输出 为 [-1,7,7,512]， 则 可 以 采用 卷 积 核 为 [7,7] 的 全 局 
卷 积 核 来 蔡 代 ， 即 输入 的 卷 积 核 为 [7,7,512,4096]。 而 在 后 面 所 学 习 的 GoogLeNet 中 ， 使 用 全 
局 平均 池 化 (global average pooling，GAP) 取代 全 连接 层 来 获取 不 同 的 特征 ， 但 是 依然 使 用 
softmax 来 对 数据 进行 分 类 。 

但 是 在 已 有 进行 Finetuning 时 发 现 , 有 全 连接 层 的 卷 积 神经 网 络 能 够 取得 比 无 全 连接 层 的 
卷 积 神经 网 络 更 好 的 图 像 分 辨 效果 , 特别 是 在 新 训练 集 和 已 训练 集 差异 巨大 的 情况 下 。 个 人 猜 
测 全 连接 层 可 以 最 大 限度 保留 卷 积 层 特征 提取 的 结果 ,而 不 是 在 分 类 时 根据 最 大 特征 或 者 均值 
特征 对 图 像 进 行 分 类 。 


17.1.3 ”激活 函数 起 作用 的 原因 

对 于 激活 函数 来 说 ， 其 并 不 是 作为 一 个 线性 函数 来 考虑 , 更 多 的 是 将 其 作为 一 个 线性 “分 
割 器 ”来 使 用 。 对 于 神经 网 络 的 拟 合 ， 其 过 程 可 以 认为 是 在 不 停 地 将 相似 的 数据 和 特征 登 加 在 

-起 , 而 激活 函数 就 在 起 到 在 这 些 车 加 层 之 间 进 行 切割 , 使 其 在 真实 的 贴近 过 程 中 还 有 一 个 能 

够 被 相互 区 分 的 能 力 。 

通过 深度 学 习 的 实验 也 可 知道 , 增加 更 多 的 深度 也 就 是 可 以 理解 成 增加 更 多 的 “折合 ”( 图 
17-4) ， 而 足够 多 的 折 倒 可 以 在 理论 上 逼近 任何 一 个 模型 函数 。 但 是 这 样 的 拟 合 过 程 会 造成 数 
据 的 拟 合 过 于 平滑 , 甚至 对 于 不 需要 保存 的 数据 值 也 一 样 地 予以 保留 和 拟 合 。 这 不 是 使 用 者 所 
期 望 的 。 而 激活 函数 的 作用 就 在 数据 的 类 别 之 上 进行 分 割 ， 从 而 获得 一 个 更 好 的 拟 合 结果 。 
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17.1.4” 卷 积 后 的 图 像 大 小 
这 个 在 前 面 所 大 量 使 用 的 、 卷 积 后 的 图 像 大 小 公式 如 下 : 
img,、ing,: 原始 图 像 的 宽 和 高 
pad: 填补 的 像素 


kernel: 卷 积 核 大 小 
stride: 步 长 


mg, + 2 x pad + kernel 


)+1 卷 积 后 图 像 的 宽 


output, =( 





stride 
lmg, + 2 x pad + kernel 


)+1 卷 积 后 图 像 的 高 


outputat stride 


17.1.5” 池 化 层 的 作用 

池 化 层 的 作用 有 两 个 : 

@ 一 是 对 卷 积 层 所 提取 的 信息 做 更 进一步 的 降 维 ,减少 计算 量 。 

@ ”二 是 加 强 图 像 特征 的 不 变性 ， 使 之 增加 抗 图像 的 偏 黎 、 旋 转 等 方面 的 鲁 棒 性 。 
17.1.6 为 什么 在 最 后 分 类 时 使 用 softmax 而 不 是 传统 的 SVM 


首先 ， 对 于 数据 变动 的 敏感 性 ，softmax 强 于 SVM。 对 于 小 范围 的 变动 ，SVM 可 能 输出 
没有 变化 ， 而 softmax 可 以 敏锐 地 察觉 到 变化 数值 并 在 结果 中 反应 。 

其 次 , 对 于 生成 的 结果 , softmax 更 倾向 于 概率 上 的 表示 , 并 不 是 一 个 绝对 的 数值 ; 而 SVM 
的 分 类 过 于 强硬 ， 不 考虑 一 些小 概率 的 事件 。 


] 了 。 2 卷 积 神经 网 络 调 优 面试 问答 汇总 


“对 于 程序 设计 人 员 来 说 ，51% 的 时 间 在 进行 网 络 调 优 。” 

对 于 卷 积 神经 网 络 来 说 , 网 络 调 优 是 一 个 非常 非常 重要 的 内 容 。 对 于 大 多 数 的 模型 在 设计 
定型 以 后 , 为 了 能 够 使 其 更 好 更 快 地 适应 不 同 的 环境 , 要 在 各 个 方面 进行 调整 ,因此 这 也 是 面 
试 最 常 问 的 问题 。 并 且 除 此 之 外 ， 还 能 够 极 大 地 帮助 工程 和 商业 上 的 卷 积 神经 网 络 调整 。 


17.2.1 数据 集 的 注意 事项 


(1) 对 于 卷 积 神经 网 络 来 说 ，CNN 的 训练 需要 用 到 大 量 的 数据 ， 因 此 对 于 数据 集 的 准备 
来 说 ， 要 进行 扩展 ， 可 以 使 用 增加 噪点 、 增 白 、 减 少 像素 、 旋 转 或 色 移 、 模 糊 等 可 以 扩展 的 已 
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有 的 数据 集 ， 同 时 建议 这 种 扩展 可 以 综合 应 用 以 上 的 方式 从 而 减少 数据 的 重复 性 。 

(2) 数据 在 输入 到 模型 中 时 要 进行 shuffle 处 理 ， 实 验 表明 在 每 个 epoch 都 进行 shuffle 
处 理 的 话 可 以 提高 准确 率 。 

(3) 在 使 用 大 型 数据 集 进行 模型 验证 之 前 ， 使 用 小 型 数据 集 进行 过 拟 合 测试 ， 确 保 模型 
可 以 过 拟 合 ， 从 而 确认 在 大 型 数据 集中 也 可 以 正常 工作 和 收敛 。 

(4) 图 像 数据 上 如 果 图 像 的 大 小 过 小 ， 则 建议 使 用 很 低 的 stride。 

(5) 每 个 batch_size 的 大 小 应 该 是 128 或 者 256， 如果 这 是 产生 内 存 问 题 , 则 应 该 给 予 降 
低 ， 并 且 伴 随 着 batch_size， 学 习 率 应 该 设 定 为 0.005 或 者 0.01 左右 ， 并 建议 采用 线性 衰减 。 


17.2.2 ” 卷 积 模型 训练 的 注意 事项 

(1) 确保 使 用 dropout 降低 模型 的 过 拟 合 几率 ， 特 别 是 在 神经 元 大 于 256 的 层 之 后 就 应 
该 使 用 dropout 来 降低 过 拟 合 几率 。 

(2) 尽量 使 用 relu 和 prelu 作为 激活 函数 ， 避 免 使 用 传统 的 sigmoid 和 tanh 作为 激活 函 
数 。 传 统 的 这 些 激活 函数 的 计算 开销 非常 巨大 , 而 且 会 使 之 在 传递 过 程 中 造成 梯度 爆炸 和 梯度 
消失 ， 因 此 不 要 使 用 。 而 且 顺 便 说 下 ， 在 使 用 relu 激活 函数 之 前 ， 最 好 对 输入 的 数据 进行 
batch_normalization， 使 用 的 基本 顺序 如 图 17-5 所 示 。 


图 17-5 ”训练 模型 的 摆 放 顺序 


(3) 每 个 batch_size 的 大 小 应 该 是 128 或 者 256， 如 果 这 是 产生 内 存 问题 , 则 应 该 给 予 降 
低 ， 并 且 伴 随 着 batch_size， 学 习 率 应 该 设 定 为 0.005 或 者 0.01 左右 ， 并 建议 采用 线性 衰减 。 


了 .了 NIN 模型 介绍 


本 节 介绍 两 个 非常 重要 的 基本 模型 ， NIN 模型 和 GoogLeNet 模型 。 这 也 是 面试 过 程 中 党 
用 到 的 一 个 基础 解释 性 模型 。 
17.3.1 _NIN 模型 简介 


NIN (Network In Network) 模型 是 经 典 的 卷 积 神经 网 络 模型 的 一 个 变种 。 
对 于 卷 积 神经 网 络 来 说 , 其 卷 积 化 的 过 程 就 是 使 用 线性 滤波 器 对 图 像 进行 内 积 化 计算 , 并 
在 每 个 卷 积 化 结束 后 得 到 一 个 特征 图 。 这 种 卷 积 滤波 器 有 一 个 专门 的 名 称 叫做 广义 线性 模型 。 
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前 面 已 经 说 过 , 卷 积 计算 是 分 层 进行 的 , 较为 前 面 的 卷 积 抽取 的 是 浅 层 的 特征 , 越 往 后 的 
卷 积 层 抽取 的 是 越 为 复杂 的 特征 ， 有 一 个 循序 渐进 的 过 程 。 

NIN 模型 抛弃 这 种 固有 模式 ， 在 低级 阶段 就 使 用 抽取 能 力 更 强 的 模型 去 蔡 换 抽取 能 力 较 
弱 的 传统 卷 积 层 ， 从 而 期 望 提升 卷 积 神经 网 络 的 整体 表达 和 辨别 能 力 ， 如 图 17-6 所 示 。 















































图 17-6” Network In Network 模型 


NIN 具体 在 传统 的 卷 积 层 上 采用 了 大 小 为 [1,1] 的 卷 积 核 去 检 代 , 相当 于 进行 了 一 次 初级 范 
围 的 全 连接 提取 ， 从 而 加 强 了 线性 特征 ， 达 到 更 高 的 抽象 ， 泛 化 能 力 更 强 。 

这 种 大 小 为 [1.1] 的 卷 积 核 连 接 在 传统 卷 积 层 后 的 方式 称 为 mlpconv〈 感 知 机 卷 积 层 ) ， 又 
称 为 cccp 层 。 从 图 17-7 中 可 以 看 到 ，mlp 代替 了 传统 的 卷 积 核 从 而 提高 了 特征 提取 度 ， 并 且 
实现 了 跨 通道 的 信息 连接 ， 从 而 实现 多 个 特征 平面 上 的 信息 整合 。 
































CxHi* Wy Caxlxl Cyxlxl 


图 17-7 单 通道 mlpconv( 左 ) 与 跨 通道 mlpconv( 右 ) 


除 此 之 外 还 有 一 个 非常 重要 的 地 方 在 于 ，NIN 模型 取消 了 最 后 进行 分 类 的 全 连接 层 ， 采 
用 的 是 全 局 池 化 层 (Global Average Pooling) 来 取代 最 后 的 全 连接 层 ， 因 为 全 连接 层 参数 多 且 
易 过 拟 合 。 做 法 即 移 除 全 连接 层 ， 在 最 后 一 层 的 后 面 加 一 层 Average Pooling 层 来 进行 模型 的 
最 终 分 类 , 能 够 使 得 具有 一 定 相 关 性 的 不 同 通道 信息 聚集 在 一 起 , 通过 这 些 聚 类 实现 的 单元 去 
区 分 图 像 。 

这 样 做 的 好 处 能 够 极 大 地 减少 最 终 的 权重 数据 。 对 于 VGGNet 来 说 ， 权 重 数据 的 80% 都 
是 由 全 连接 层 数据 构成 , 而 采用 这 种 使 用 全 局 池 化 层 蔡 代 全 连接 层 的 做 法 理论 上 可 以 减少 80% 
的 数据 容量 ， 从 而 提高 了 计算 效率 。 





17.3.2” 猫 狗 大 战 一 一 NIN 的 代码 实现 
NIN 模型 是 一 个 非常 重要 的 模型 ， 首 次 提出 了 使 用 [1,1] 的 卷 积 核 去 获取 更 多 的 跨 通道 信 
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息 。 这 给 后 面 的 GoogLeNet 网 络 和 ResNet 网 络 带 来 了 一 个 新 的 思路 和 变革 。 除 了 实现 了 跨 通 
道 的 信息 整合 外 ， 使 用 [1,1] 的 网 络 还 能 够 实现 卷 积 核 通 道 数 的 降 维 和 升 维 。 

下 面具 体 实现 一 个 NIN 网 络 。 正 如 前 面 所 述 , 使 用 TensorFlow 实现 一 个 NIN 网 络 并 不 是 
一 件 困难 的 事 ， 其 模型 的 拓扑 结构 如 图 17-8 所 示 。 














图 17-8 NIN 网 络 的 具体 实现 图 
使 用 代码 表示 如 下 : 
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这 段 代码 与 经 典 的 NIN 代码 有 所 不 同 ， 根 据 实际 需要 对 层次 的 大 小 有 所 变化 。 

从 图 17-9 可 以 看 到 ， 数 据 图 片 大 小 依次 为 224、56、28、14、7。 而 通道 数 是 3、96、256、 
128、2。 最 后 将 数据 分 成 2 个 通道 ， 原 因 是 本 次 训练 主要 是 对 猫 狗 大 战 的 数据 集 进 行 分 类 ， 将 
其 分 成 2 类 。 





画 @7.7.2) | 
|| (2, 7, 7, 128) 


加 (2, 14, 14, 256) 
面 (2, 28, 28, 96) | 


男 (2, 56, 56, 96) 
(2, 224, 224, 3) 


























数据 集 
图 17-9 NIN 图 像 大 小 和 通道 数 








在 TensorFlow 中 ， 对 卷 积 后 图 片 变化 的 计算 ， 是 采用 的 去 尾 法 ， 而 且 模型 中 所 有 的 卷 积 





层 都 没有 进行 补 齐 操作 。 


仿照 类 的 形式 给 予 NIN 定义 ， 代 码 如 下 : 
【程序 17-1】 
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而 对 于 训练 过 程 的 程序 编写 ， 可 以 参考 上 一 章 的 内 容 完 成 。 代 码 段 如 下 : 
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这 里 使 用 的 是 前 面 编写 的 输入 导入 内 容 ， 之 后 模型 的 建立 是 通过 初始 化 自己 定义 的 NIN 
模型 ， 而 输出 结果 和 损失 函数 都 直接 从 预先 定义 的 工具 库 中 获取 。 训练 过 程 请 读者 参考 前 面 的 
内 容 自 行 完成 。 


加 mip Ww 作用 是 通过 洗 郑 积 扫 取 的 低级 特征 通过 组 合 形成 一 个 个 复杂 的 组 来 增加 单个 关 积 | 
特征 的 有 效 性 。 这 个 想法 之 后 被 用 到 一 些 最 近 的 架构 中 ， 合 如 ResNet、GoogLeNet 模型 


及 其 衍生 。 





1 7.4 “deeper is better” ——GoogLeNet 
模型 介绍 


GoogLeNet 是 继承 NIN 模型 并 在 其 上 进行 改造 的 一 个 非常 重要 的 模型 。 
为 了 取得 更 好 的 模型 工作 效果 , 已 有 的 深度 学 习 模型 向 着 网 络 规模 越 来 越 大 、 参数 越 来 越 
多 、 层 次 越 来 越 深 的 趋势 发 展 。“deeper is better”， 这 人 句 话 用 在 深度 学 习 中 是 最 好 的 体现 。 


17.4.1 GoogLeNet 模型 的 介绍 


随 着 参数 增加 ， 模 型 也 变 得 越 来 越 复 杂 ， 其 中 涉及 的 计算 量 呈 现 一 个 几何 级 别 的 上 升 , 最 
终 的 结果 造成 神经 网 络 的 计算 爆炸 。 可 能 有 读者 认为 现在 随 着 计算 机 硬件 提升 和 分 布 式 平台 的 
兴起 , 计算 量 的 增加 并 不 会 带 来 致命 的 影响 。 但 是 随 之 而 来 的 参数 爆炸 ， 整 个 模型 会 呈现 会 很 
容易 形成 过 拟 合 的 状态 。 

从 理论 上 来 说 , 一 味 地 设计 更 深 的 模型 的 原因 , 是 深度 学 习 特 征 提取 单元 在 提取 图 像 特 征 
的 时 候 并 没有 提取 出 对 应 的 图 像 特征 。 如 果 能 够 使 得 模型 在 这 些 特征 提取 单元 上 做 出 一 些 优 
化 ， 之 后 使 用 优化 后 的 特征 提取 单元 去 做 特征 提取 ， 那 么 即 可 最 大 限度 地 获得 模型 分 辨 效果 ， 
如 图 17-10 所 示 。 
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图 17-10 deeperis better 


正如 入 工 神经 网 络 的 模型 是 来 自 于 生物 神经 网 络 ,生物 神经 网 络 的 参数 和 层次 是 一 个 稀疏 
性 连接 , 因此 对 于 大 规模 有 着 较 深 程度 的 神经 网 络 , 可 以 通过 分 析 特 征 提取 单元 的 统计 特性 和 
有 着 高 度 相 关 性 的 输出 进行 聚 类 分 类 来 构建 一 个 更 优化 的 网 络 。 

在 2014 年 举办 的 ILSVRC14 比赛 上 ， 一 个 新 的 神经 网 络 模型 GoogLeNet (图 17-11) 获 
得 了 冠军 , 并 刷新 了 图 像 分 类 与 检测 的 性 能 纪录 。 通 过 合理 地 设计 网 络 层 次 和 每 层 的 神经 参数 ， 
在 保持 网 络 资源 不 变 的 前 提 下 ， 通 过 人 为 手段 增加 了 网 络 的 宽度 和 深度 。 








17-11 GoogLeNet 模型 


结果 证 实 , GoogLeNet 用 的 参数 比 ILSVRC2012 的 冠军 AlexNet 少 12 倍 , 但 准确 率 更 高 。 

究 其 原因 ，GoogLeNet 主要 使 用 了 一 个 新 的 、 称 为 Inception module 的 模型 设计 思想 ， 其 
目的 是 强化 基本 特征 提取 能 力 。 相 对 于 传统 的 VGGNet， 单 层 卷 积 核 的 大 小 只 有 [3,3]， 在 特征 
提取 的 时 候 功能 较 弱 ; 而 Inception module 则 是 由 [1,1]、 [3,3]、 [5,5] 卷 积 核 和 一 个 [3,3] 的 pooling 
组 成 。 

这 样 通过 不 同 的 卷 积 核 就 可 以 抽取 不 同 尺寸 的 特征 ， 大 大 增强 了 对 传递 数据 的 特征 抽取 。 
因为 使 用 特征 抽取 时 , 传统 的 方式 是 在 提取 结束 后 使 用 池 化 层 进行 特征 的 进一步 提取 , 必然 会 
带 来 一 层 层 的 特征 损失 ， 而 Inception module (图 17-12) 采用 的 是 并 行 的 模式 ， 这 样 就 在 一 定 
程度 上 对 特征 进行 分 拣 ， 保 留 了 更 多 的 数据 特征 信息 。 
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Filter 
concatenation 
1x1 convolutions 3x3 convolutions 


图 17-12 ”Iception module 模型 


虽然 采用 这 样 方式 能 够 较 传统 的 特征 提取 单元 保留 更 多 的 信息 ,但 是 一 个 非常 大 的 问题 就 
是 特征 保留 得 过 多 , 在 模型 传递 的 过 程 中 会 耗费 巨大 的 计算 资源 。 即 使 使 用 [5,5] 的 卷 积 核 进行 
抽样 ， 一 样 会 带 来 繁重 的 资源 需求 。 因 此 为 了 解决 这 个 问题 ， 在 原始 的 Inception module 上 采 
用 了 多 个 [1,1] 大 小 的 卷 积 核 进 行 数据 的 降 维 (图 17-13) ， 这 样 既 可 以 减少 信息 损失 ， 又 减少 
了 传递 的 卷 积 计算 量 。 

这 样 修改 后 ， 可 以 使 得 Inception module 获得 较 好 的 卷 积 提取 能 力 ， 而 不 会 随 着 深度 的 增 
加 而 提升 很 多 的 计算 量 。 修 改 后 的 Inception module 模型 如 图 17-13 所 示 。 

















5x5 convolutions 3x3 max pooling 














1x1 convolutions 


3x3 max pooling | 





17-13 ”修改 后 的 Inception module 模型 


17.4.2 ”GoogLeNet 模型 单元 的 TensorFlow 实现 
通过 分 析 可 以 知道 ， 采 用 Inception 架构 的 GoogLeNet 如 图 17-14 所 示 。 
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SR SEEe/ 

Se ae 
Convolution 7x7/2 112x112x64 1 
max pool 3x3/2 56x56x64 0 
convolution 3x3/1 S56x56x192 2 
max pool 3x3/2 28x28x192 0 
inception (3a) 28x28x256 2 64 16 32 32 
inception (3b) 28x28x480 2 128 32 96 64 
max pool 3x3/2 14x14x480 0 
inception (4a) 14x14x512 2 192 16 48 64 
inception (4b) 14x14x512 2 160 24 64 64 
inception (4c) 14x14x512 2 128 24 64 64 
inception (4d) 14x14x528 2 112 32 64 64 
inception (4e) 14x14x832 2 128 128 
max pool 3x3/2 7x7x832 0 
inception (5a) 7x7x832 2 256 32 128 128 
inception (Sb) 7x7x1024 2 384 48 128 128 
avg pool 7x7/1 1x1x1024 0 
dropout (40%) 1x1x1024 0 
linear 1x1x1000 1 

1x1x1000 0 
































图 17-14 ”GoogLeNet 程序 架构 
而 其 中 最 重要 的 是 Inception 模块 单元 的 编写 ,仿照 图 17-14 可 以 获得 以 下 的 代码 段 : 
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Inception 作为 整体 进行 编程 ， 分 别 实现 了 [1,1]、[3,3]、[5,5] 以 及 最 终 的 池 化 层 操作 。 并 在 
最 后 进行 一 个 连接 运算 将 分 布 计算 的 各 个 结果 连接 在 一 起 ， 从 而 实现 整个 Inception 计算 。 

其 他 没什么 难度 ,请 读者 自行 补 全 代码 进行 , 还 有 一 个 要 注意 的 地 方 ， 在 图 17-10 中 有 多 
个 softmax 进行 数据 输出 ， 这 是 用 以 计算 损失 函数 的 结果 ， 但 是 实际 编码 中 目前 并 没有 用 到 ， 
可 以 在 程序 设计 的 时 候 予 以 忽略 。 


17.4.3 ”GoogLeNet 模型 的 一 些 注意 事项 


对 于 传统 的 神经 网 络 ,能 够 保证 模型 输出 质量 最 好 的 方法 就 是 增加 模型 的 深度 或 者 增加 神 
经 元 的 个 数 。 但 是 这 样 非常 容易 产生 两 个 主要 问题 ， 即 一 是 参数 设置 过 多 ,训练 过 程 容易 产生 
过 拟 合 ; 二 是 网 络 设置 越 大 、 复 杂 度 越 高 ， 计 算 耗 费 资源 越 多 。GoogLeNet 采用 的 思想 也 主要 
是 为 了 解决 这 2 个 问题 。 
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首先 对 于 GoogLeNet 来 说 ， 从 图 17-10 上 GoogLeNet 模型 来 看 ， 其 层 数 更 深 ， 但 是 采用 
了 Inception module， 使 得 纵向 的 深层 次 连接 被 分 解 成 若干 个 小 的 Inception 单元 ， 在 每 个 独立 
单元 中 将 高 相关 性 的 特征 提取 结果 聚集 在 一 起 , 重新 连接 后 传递 给 下 一 层 , 从 而 在 一 定 程度 上 
解决 层 数 过 多 的 形式 。 

而 Inception 单元 之 间 互 相 堆 放 ， 它 们 的 输出 相关 性 统计 会 改变 。 高 层次 提取 高 抽象 性 的 
特征 ， 空 间 集中 性 会 降低 ， 因 此 3X3 和 5X5 的 卷 积 核 在 更 高 层 会 比较 多 。 

其 次 为 了 解决 参数 过 多 ， 设 计 人 员 采 用 了 大 量 降 维 操作 ， 而 最 根本 的 办 法 则 参考 NIN 的 
计算 思想 ， 将 全 连接 层 变 为 稀 玻 连接 层 ， 即 使 用 池 化 层 代 替 全 连接 层 做 最 后 的 分 类 作用 。 

还 有 一 个 比较 重要 的 问题 ,在 Inception 中 使 用 了 小 的 卷 积 核 单元 (图 17-15) 去 替代 较 大 
的 卷 积 核 ,这 样 做 的 好 处 是 极 大 地 减少 了 计算 结果 的 参数 ,例如 [5,5] 计 算 后 的 卷 积 核 参 数 是 [3,3] 
卷 积 核 参 数 的 2.78 倍 。 这 样 做 并 不 会 造成 特征 抽取 的 缺失 ， 并 且 在 其 后 使 用 relu 函数 能 够 明 
显 地 提高 性 能 。 











17-15 ”分 解 后 的 Inception 单元 


然后 将 其 推广 搭配 任意 [n,n] 的 卷 积 都 可 以 通过 [1,n] 卷 积 后 接 [n,1] 卷 积 来 替代 , 然而 实际 上 
在 网 络 的 前 期 使 用 这 种 分 解 效 果 并 不 好 ， 只 有 在 中 度 大 小 13 <=n <= 15) 的 输入 特征 上 使 用 
效果 才 会 更 好 。 


17.5 本 章 小 结 


本 章 是 承前启后 的 一 个 章节 ，NIN 和 GoogLeNet 模型 是 在 传统 的 卷 积 神经 网 络 模型 上 做 
出 的 具有 里 程 碑 意义 的 修改 , 不 再 单一 地 仅仅 使 用 各 个 层 中 的 权重 值 ,其 通过 结合 各 个 层 通道 
从 而 在 节省 参数 的 基础 上 同样 获得 了 非常 好 的 效果 。 

本 章 主要 以 介绍 概念 为 主 , 首先 说 明了 一 些 面试 中 常会 出 现 的 问题 , 这 也 是 深度 学 习 程序 
设计 人 员 每 天 都 会 遇 到 的 内 容 ， 希 望 读者 能 够 认真 地 阅读 并 牢 牢记 住 其 中 的 概念 和 理念 。 

下 一 章 将 会 介绍 本 书 的 最 后 一 个 模型 ResNet, 这 是 在 NIN 和 GoogLeNet 基础 上 发 展 起 来 
的 一 个 最 新 的 、 效 果 最 好 的 模型 ， 但 是 其 基本 理念 并 没有 太 大 变化 。 


355 


第 18 章 


暂时 的 冠军 一 一 ResNef 简 介 及 
TensorFlow 实 现 


使 用 深度 学 习 , 特别 是 卷 积 神经 网 络 在 图 像 识 别 上 的 应 用 引发 了 一 系列 的 技术 突破 , 通过 
改变 隐藏 层 的 深度 和 增加 每 层 之 间 的 神经 元 , 让 神经 网 络 模型 自然 整合 所 提取 的 高 中 低级 别 特 
征 ， 特 别 是 通过 跨 通道 信息 的 联合 ， 使 得 图 像 识 别 的 能 力 有 了 更 进一步 的 提高 。 

这 也 产生 了 一 个 非常 大 的 疑问 , 是否 可 以 增加 神经 网 络 模型 的 深度 和 宽度 , 即 增加 更 多 的 
隐藏 层 和 每 个 层 之 中 的 神经 元 去 获得 更 好 的 解决 办 法 的 能 力 ? 

答案 是 不 可 能 ， 因 为 在 神经 网 络 的 基础 - 反 向 传递 的 工作 过 程 中 ， 
的 系数 会 发 生变 化 ,最终 会 出 现 梯度 消失 或 者 梯度 爆炸 。 进 一 步 的 $ 
步 增加 ,准确 度 在 达到 一 定 的 饱和 之 后 , 会 迅速 下 降 , 这 是 由 于 深 
训练 误差 ， 使 得 最 终 的 训练 失败 。 

本 文 将 介绍 在 ImageNet2015 竞赛 上 获得 冠军 的 一 个 深度 学 习 网 络 ResNet, 它 在 ImageNet 
定位 、COCO 检测 和 COCO 分 割 等 方面 也 都 取得 了 好 的 名 次 。 






随 着 网 络 的 加 深 ， 反 馈 
和 深度 的 进 一 
过 深 的 网 络 会 造成 更 多 的 


ResNet 模型 简介 


在 前 面 的 学 习 中 相信 读者 已 经 了 解 ， 越 来 越 复杂 的 辨识 工作 需要 越 来 越 复 杂 的 模型 去 完 
成 , 而 越 复杂 的 模型 包含 着 更 深层 次 的 网 络 以 及 更 宽广 的 神经 元 数据 。 但 是 问题 在 于 , 越 是 深 
层 的 神经 网 络 越 是 难以 训练 。 原因 很 简单 ,就 是 随 着 神经 元 的 增多 ,训练 模型 对 训练 集 的 数据 
太 过 于 敏感 从 而 造成 了 经 常 性 的 过 拟 合 。 

为 了 解决 这 个 问题 ,GoogLeNet 采用 了 模块 化 的 方式 在 层次 间 形 成 一 个 个 小 的 模块 来 代替 
单独 的 卷 积 层 去 处 理 特征 的 提取 ， 这 样 做 的 好 处 是 能 够 极 大 地 保持 特征 提取 的 准确 性 和 多 样 
性 ， 不 会 因为 dropout 而 可 能 丢失 所 需要 的 特征 ， 也 不 会 因为 网 络 过 深 从 而 影响 数据 在 模型 中 
的 传递 。 
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18.1.1 ResNet 模型 定义 


ResNet 又 称 为 “ 残 差 网 络 ”， 其 主要 是 在 网 络 中 使 用 了 大 量 的 残 差 模块 作为 网 络 的 基本 
组 成 部 分 ， 如 图 18-1 所 示 。 可 以 看 到 ， 残 差 网 络 同 传统 的 网 络 相 比 ， 最 大 的 变化 是 加 入 了 一 
个 恒 等 映 射 层 y=x 层 ， 其 主要 作用 是 使 得 网 络 随 着 深度 的 变化 增加 而 不 会 产生 权重 衰减 和 梯 
度 衰 减 或 者 消失 这 些 问题 。 


FW) 
[ weight ayer | /igentity 
Fx)+x 由 


relu 
图 18-1 残 差 框架 模块 

图 18-1 中 ，F(x) 表 示 的 是 残 差 .F(x) +x 是 最 终 的 映射 输出 ， 因 此 可 以 得 到 网 络 的 最 终 输 
出 为 Hx) = F(x) +x， 而 由 于 网 络 框架 中 有 2 个 卷 积 层 和 2 个 relu 函数 ， 因 此 最 终 的 输出 结果 
可 以 表示 为 : 

Hi(x)=relu(w x x) 
H,(x)=relu ,(w, x h(x)) 
H(x)=H,(x)+x 

其 中 妈 是 第 一 层 的 输出 ， 而 到 是 第 二 层 的 输出 。 这 样 使 得 当 输 入 与 输出 有 相同 维度 时 ， 
可 以 使 用 直接 输入 的 形式 将 数据 直接 传递 到 框架 的 输出 层 的 结果 。 

ResNet 整体 结构 图 及 比较 如 图 18-2 所 示 , 图 中 展示 了 VGGNet19、 一 个 34 层 的 普通 结构 
神经 网 络 和 一 个 34 层 的 ResNet 网 络 的 对 比 图 。 通 过 验证 可 以 知道 ， 在 使 用 了 ResNet 的 结构 
后 ， 可 以 发 现 层 数 不 断 加 深 导 致 的 训练 集 上 误差 增 大 的 现象 被 消除 了 ，ResNet 网 络 的 训练 误 
差 会 随 着 层 数 增 大 而 逐渐 减 小 ， 并 且 在 测试 集 上 的 表现 也 会 变 好 。 
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34-layer plain 34-layer residual 


image image 
pool /2 


3x3 conv, 64 





3x3 conv, 64 





Ce 


[3x3 conv, 128,/2 | 





Size: 28 





图 18-2 ”ResNet 模型 结构 及 比较 
但 是 在 实际 上 , 除了 讲解 的 二 层 残 差 学 习 单 元 , 还 有 使 用 了 [1,1] 结 构 的 三 层 残 差 学 习 单 元 ， 
如 图 18-3 所 示 。 这 是 借鉴 了 NIN 模型 的 思想 ， 在 二 层 残 差 单元 中 包含 1 个 [3,3] 卷 积 层 的 基础 
上 ， 更 包含 了 2 个 [1,1] 大 小 的 卷 积 ， 放 在 [3,3] 卷 积 层 的 前 后 ， 执 行 先 降 维 再 升 维 的 操作 。 


64-d 256-d 
| ae | L_ lxl64 | 
[L_ ax3,64 |] 
[aao [Cr256 
?5 95 


18-3 二 层 ( 左 ) 以 及 三 层 ( 右 ) 残 差 单元 的 比较 
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18.1.2 ”定义 工具 的 TensorFlow 实现 
读者 现在 都 吸 不 可 待 地 想 要 自 定义 自己 的 残 差 网 络 了 吧 ? 工 欲 善 其 事 , 必 先 利 其 器 。 在 工 
作 之 前 需要 做 的 是 准备 好 相关 的 程序 设计 工具 部 分 。 这 里 笔者 所 指 的 工具 是 指 那 些 已 经 设计 好 


结构 、 直 接 可 以 使 用 的 部 分 。 
首先 最 重要 的 是 卷 积 核 的 创建 方法 。 从 模型 上 看 , 这 里 所 需要 更 改 的 内 容 很 少 ， 即 卷 积 核 
的 大 小 、 输 出 通道 数 以 及 所 定义 的 卷 积 层 的 名 称 ， 代 码 如 下 : 





这 里 首先 获取 了 输入 数据 的 通道 数 ， 之 后 使 用 get_variable 函数 分 别 创建 了 卷 积 核 和 偏 置 
量 供 卷 积 计算 使 用 ， 之 后 就 是 按 TensorFlow 提供 的 方法 对 数据 进行 计算 并 返回 结果 。 

除 此 之 外 ， 还 有 一 个 非常 重要 的 方法 是 获取 数据 的 batch_normalization， 这 是 使 用 批量 正 
则 化 对 数据 进行 处 理 ， 代 码 如 下 : 
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其 他 的 还 有 最 大 池 化 层 ， 代 码 如 下 : 





平均 池 化 层 ， 代 码 如 下 : 





这 些 是 在 模型 单元 中 所 需要 使 用 的 基本 部 分 ， 有 了 这 些 工具 ， 可 以 直接 构建 ResNet 模型 
单元 。 


18.1.3 ”ResNet 模型 的 TensorFlow 实现 


通过 18.1.1 小 节 的 分 析 可 以 看 到 ， 对 于 ResNet 程序 设计 来 说 ， 最 重要 的 就 是 残 差 单 元 的 
设计 与 编写 ， 因 此 在 ResNet 实现 部 分 ， 笔 者 准备 实现 三 层 的 残 差 单 元 。 

残 差 单 元 的 构成 是 由 2 个 [1,1] 和 一 个 [3,3] 的 卷 积 核 构 成 , 首先 对 于 单一 的 卷 积 核 可 以 由 以 
下 方式 组 成 : 


首先 对 于 输入 的 数据 ， 经 过 一 个 batch_norm 层 之 后 ， 紧 接着 对 数据 进行 relu 激活 函数 的 
处 理 ， 之 后 将 其 送 入 卷 积 层 进 行 数据 输出 。 
而 残 差 单元 的 编写 如 下 : 
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在 这 里 首先 通过 resUnit 方法 的 参数 定义 了 输入 参数 、 每 层 输 出 的 通道 数 以 及 残 差 单元 的 
编号 。 需 要 注意 的 是 , 这 里 的 输出 通道 数 使 用 的 是 列表 的 形式 进行 输入 。 这 样 做 好 的 好 处 是 可 
以 方便 地 按 模型 对 输出 层 的 数据 进行 控制 。 

ResNet 的 模型 设计 最 终 如 下 : 
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可 以 看 到 ， 这 样 做 的 好 处 是 对 中 间 的 单元 层次 进行 自由 安排 和 组 合 ， 对 于 无 论 是 要 搭建 
50 层 的 ResNet 还 是 101 层 的 ResNet, 都 可 以 自由 地 组 合 相 应 的 网 络 , 并 只 需要 对 单元 中 的 输 
出 通道 进行 设 定 即 可 。 

训练 的 核心 代码 如 下 : 





顺便 提 一 下 , 这 个 网 络 的 训练 是 非常 耗费 时 间 的 ， 如果 读者 开始 进行 训练 ,那么 需要 有 足 
够 的 耐心 。 这 里 笔者 建议 读者 ， 继 续 往 下 阅读 ， 了 解 更 多 的 模型 。 


号 .2 新 兴 的 卷 积 神经 模型 简介 


虽然 ResNet 在 ImageNet2015 上 取得 了 非常 好 的 名 次 , 但 是 随 着 科技 的 发 展 ， 新 兴 的 网 络 
和 设计 方式 层出不穷 ， 如 图 18-4 所 示 。 





18-4 近期 神经 网 络 的 发 展 


现在 新 兴 的 各 种 设计 模式 和 框架 更 是 在 吸收 前 面 研究 的 基础 上 扬长 补 短 、 兼 容 并 营 , 使 得 
模型 能 够 更 好 地 达到 所 需要 的 效果 。 


18.2.1 SqueezeNet 模型 简介 


从 2012 年 AlexNet 模型 的 提出 到 2015 年 ResNet 模型 在 图 像 识 别 上 取得 成 功 ， 卷 积 核 的 
大 小 以 及 整个 模型 的 参数 都 在 不 断 地 缩小 , 并 且 在 缩小 计算 量 、 减 少 所 耗费 资源 的 基础 上 , 模 
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型 的 有 效 性 及 整体 的 简洁 性 都 没有 受到 影响 ,这 从 而 也 论证 了 使 用 较 少 的 参数 同样 可 以 达到 所 
要 求 的 目标 。 
SqueezeNet 是 2016 年 提出 的 最 新 的 神经 网 络 模型 ， 其 结构 图 如 图 18-5 所 示 。 





global Dd 


"labrador 
ee 


18-5 ”SqueezeNet 结构 图 


它 做 到 了 神经 网 络 模型 设计 人 员 一 个 梦 寨 以 求 的 事 , 即 极 大 地 减少 了 整体 模型 的 参数 。 究 
其 原因 ， 主 要 是 仿照 ResNet 模型 的 结构 在 SqueezeNet 模型 中 大 量 使 用 了 相关 单元 模块 ， 而 模 
块 中 的 实际 使 用 参数 被 大 大 减少 了 。 

SqueezeNet 使 用 的 fire 单元 模块 如 图 18-6 所 示 。fire 单元 模块 是 SqueezeNet 模型 的 核心 
构件 ， 在 设计 上 非常 简单 ， 即 将 原来 简单 的 一 层 conv 层 变 成 两 层 。fire 单元 模块 中 包含 三 个 
卷 积 层 ， 分 为 squeeze 和 expand 两 部 分 ， 步 长 均 为 1。squeeze 和 expand 的 作用 是 用 于 压缩 和 
扩展 数据 〈 浅 灰色 矩形 ) 的 通道 数 。expand 部 分 中 ， 两 个 不 同 核 尺 寸 的 结果 通过 串 接 层 合并 
输出 。 
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squeeze 


expand 


concat 


H*W°lesres) 





图 18-6 ”SqueezeNet 模型 中 fire 单元 模块 
从 图 18-5 中 可 以 看 到 ，SqueezeNet 整个 网 络 包 含 11 层 ， 其 结构 如 图 18-7 所 示 。 


@ 第 1 层 为 卷 积 层 ， 缩 小 输入 图 像 ， 提取 96 维特 征 。 

@ 第 2 到 9 层 为 fire 模块 每 个 模块 内 部 先 减少 通道 数 (squeeze ) ， 再 增加 通道 数 
(expamd ) ， 每 两 个 模块 之 后 ， 通 道 数 会 增加 。 

@ 在 1、4、8 层 之 后 加 入 降 采 样 的 max pooling， 缩 小 一 半 尺 寸 。 

第 10 层 依然 是 卷 积 层 ， 为 小 图 的 每 个 像素 预测 1000 类 分 类 得 分 。 

@ ”最 后 用 一 个 全 图 average pooling (绿色 ) 得 到 这 张 图 的 1000 类 得 分 ， 使 用 softmax 
函数 归 一 化 为 概率 。 


18-7 ”SqueezeNet 模型 


SqueezeNet 在 整体 模型 构建 中 据 弃 了 全 连接 层 ， 而 采用 全 卷 积 计算 。 最 后 使 用 了 一 个 全 
局 池 化 层 进 行 跨 通道 信息 组 合 ， 从 而 实现 全 局 的 图 像 识 别 分 类 。 
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全 连接 层 的 参数 过 多 ， 对 实际 的 模型 分 别 能 力 提升 帮助 不 大 ， | 
pooling 代替 ， 这 点 建议 读者 在 实践 中 多 加 注意 。 








18.2.2”Xception 模型 简介 


传统 的 AlexNet 模型 主要 处 理 空间 上 图 像 的 特征 分 类 , 开天辟地 的 将 卷 积 神经 网 络 引入 到 
图 像 识别 中 ,取得 了 非常 好 的 成 绩 。 而 其 后 新 兴 的 各 个 模型 除了 对 空间 特征 进行 分 类 提取 , 还 
注重 了 对 多 个 图 形 之 问 通道 的 联系 , 通过 不 同 通道 的 跨 通道 组 合 , 进一步 提高 了 图 像 的 辨识 率 

总 结 这 些 模型 ,就 是 通过 独立 处 理 不 同 通道 之 间 的 跨 通道 和 空间 辨别 率 之 间 的 相关 性 , 使 
得 处 理 能 够 简单 高 效 。 模 型 中 使 用 了 很 多 大 小 为 [1.1] 的 卷 积 核 , 解 耦 了 不 同 通道 之 问 的 相关 性 ， 
之 后 将 不 同 通道 上 的 信息 映射 到 不 同 的 通道 空间 , 特征 提取 完毕 后 , 又 将 输入 信号 重新 映射 到 
更 小 的 空间 中 ， 通 过 池 化 层 替 代 全 连接 层 重新 将 数据 整合 和 分 类 。 

Xception 就 是 基于 这 个 思路 而 开发 的 一 种 最 新 的 神经 网 络 模型 , 对 于 每 个 通道 上 的 空间 特 
征 进行 独立 提取 ， 之 后 再 通过 卷 积 计算 ([1,.1]) 组 合 后 在 一 个 新 的 通道 上 输出 ， 如 图 18-8 所 示 。 





channels 





Input 


图 18-8 Xeception 单元 结构 


Xception 就 是 在 此 之 上 提出 的 一 种 新 的 模型 结构 ， 使 得 通道 处 理 和 空间 处 理 能 够 完全 分 
开 ， 将 不 同 的 通道 内 容 根据 相关 性 ， 并 且 在 只 凭借 通道 相关 性 的 基础 上 进行 模式 分 类 。 如 图 
18-9 所 示 为 Xception 结构 模型 。 
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图 18-9 ”Xeception 结构 模型 


可 以 看 到 ，Xception 有 36 个 卷 积 层 ， 包 含 14 个 模块 ， 线 性 Residual connection 在 这 14 
个 模块 中 。 在 图 像 分 类 中 ， 最 后 一 层 是 逻辑 回归 ， 可 以 在 逻辑 回归 前 面 一 层 加 上 全 连接 层 。 


18.3 本 章 小 结 


卷 积 神经 网 络 越 来 越 流行 , 实践 证 明 它 是 越 来 越 有 效 的 、 最 好 的 图 像 识别 算法 。 究 其 原因 ， 
卷 积 神经 网 络 或 者 深度 神经 网 络 的 成 功 得 益 于 广大 模型 设计 人 员 和 各 种 层出不穷 的 神经 网 络 
模型 架构 。 

下 面 图 18-10 总 结 了 20 世纪 90 年 代 深 度 学 习 兴 起 到 目前 最 新 的 卷 积 神经 网 络 模型 , 其 中 
横 坐 标 是 操作 的 复杂 度 , 纵 坐 标 是 精度 。 可 以 看 到 , 模型 设计 一 开始 的 时 候 注重 模型 权重 越 多 ， 
模型 越 大 ， 其 精度 越 高 ， 后 来 出 现 了 resNet、GoogleNet、Inception 等 网 络 架构 之 后 ， 在 取得 
相同 或 者 更 高 精度 之 下 , 其 权重 参数 不 断 下 降 。 更 值得 注意 的 是 , 并 不 是 意味 着 横 坐 标 越 往 右 ， 
它 的 运算 时 间 越 大 。 在 这 里 并 没有 对 时 间 进 行 统 计 , 而 是 对 模型 参数 和 网 络 的 精度 进行 了 纵横 
对 比 。 
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图 18-10 各 种 神经 网 络 模型 结构 


本 书 到 本 章 为 止 ， 系 统 地 总 结 了 AlexNet、LeNet、GoogLeNet、VGG-16、NiN、ResNet 
模型 的 结构 特点 以 及 相应 的 TensorFlow 的 具体 实现 ， 目 前 这 也 是 这 个 领域 研究 的 最 前 沿 的 科 
技 发 展 趋势 。 

本 书 到 目前 为 止 都 是 偏重 于 图 像 识别 最 基础 的 部 分 一 一 使 用 卷 积 神经 网 络 进行 图 像 识别 
的 模型 的 设计 与 实现 ， 这 确实 是 最 基础 、 最 重要 的 部 分 。 但 是 对 于 TensorFlow 来 说 ， 需 要 使 
用 这 些 模型 进行 更 进一步 的 、 具 有 现实 意义 的 工作 。 

从 下 一 章 开始 将 着 重 介绍 使 用 这 些 模 型 进行 图 像 识 别 相关 工作 的 现实 性 任务 。 对 于 读者 最 
关心 的 应 该 是 下 面 开 始 的 难度 问题 , 这 里 笔者 将 保持 循序 渐进 的 学 习 过 程 , 在 一 个 平缓 的 学 习 
坡度 上 进行 更 进一步 地 学 习 。 
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TensorFlow 高 级 AP| 一 一 
Slim 使 用 入门 


本 章 开始 将 进入 TensorFlow 学 习 的 高 级 阶段 ， 使 用 已 经 学 过 的 内 容 对 现实 世界 中 的 图 像 
进行 处 理 。 

在 开始 这 些 学 习 和 应 用 之 前 ， 需 要 对 已 掌握 的 知识 做 进一步 的 升级 。 在 TensorFlow 中 ， 
除了 前 面 教 给 读者 的 各 种 基础 性 方法 , TensorFlow 开发 团队 还 在 孜孜 不 倦 地 提供 各 种 高 级 API 
类 库 供 给 开发 者 使 用 ， 掌 握 这 些 类 库 能 够 极 大 地 帮助 读者 使 用 TensorFlow 去 进行 更 为 高 级 的 
程序 开发 。 

Slim 是 TensorFlow 在 0.10 版 中 新 加 入 的 一 个 用 于 定义 、 训 练 和 评估 较为 复杂 模型 的 轻 量 
级 开发 类 库 ， 它 能 够 较 好 地 与 TensorFlow 本 身 的 相关 函数 和 程序 完美 地 结合 在 一 起 ， 并 且 能 
够 兼容 其 他 框架 。 


Slim 详解 

从 上 一 章 的 内 容 中 可 以 看 到 , 对 于 现在 的 新 兴 的 模型 设计 , 更 多 的 是 使 用 模型 单元 去 进行 
组 合 , 很 多 的 程序 设计 劳动 是 重复 的 ， 这 往往 造成 了 大 量 的 时 间 和 精力 浪费 , 也 容易 产生 很 多 
低级 错误 。Slim 的 诞生 就 是 为 了 解决 这 个 问题 。 

Slim 是 TensorFlow 在 0.10 版 中 新 加 入 的 一 个 用 于 定义 、 训 练 和 评估 较为 复杂 模型 的 轻 量 
级 开发 类 库 。 它 能 够 极 大 地 减少 TensorFlow 的 程序 设计 人 员 重 复 性 的 模板 性 程序 代码 的 编写 ， 
使 代码 更 为 简洁 。 

对 于 Slim 来 说 ， 其 作用 就 是 用 以 减少 重复 性 的 劳动 。 这 主要 得 益 于 其 在 实际 程序 设计 时 
使 用 了 大 量 的 “命名 空间 ” (argument scoping) 和 不 同 层 的 变量 。 这 点 在 前 面 介 绍 模型 的 设 
计 的 时 候 已 经 提 及 ， 使 用 命名 空间 后 的 变量 ，TensorFlow 框架 会 自动 对 齐 进行 命名 和 管理 。 
因此 使 用 Slim 可 以 明显 地 增强 TensorFlow 程序 设计 的 可 读 性 和 泛 用 性 , 并 减少 程序 的 差错 和 
调 优 的 难度 。 
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Slim 提供 了 大 量 常用 简化 模型 可 以 直接 调用 ， 例 如 前 面 介 绍 过 的 VGG 和 AlexNet， 笔 者 
曾经 带领 读者 使 用 这 2 个 模型 进行 Finetuning， 让 其 专注 于 “ 猫 狗 大 战 ” 的 编写 。 这 是 在 载 入 
已 有 的 模型 和 权重 的 基础 上 ,“ 更 换 ” 了 最 终 的 输出 层 的 分 类 方式 ,从 而 达到 最 终 的 分 类 效果 。 
Slim 也 是 如 此 ， 可 以 使 用 已 有 的 训练 好 的 模型 去 完成 任何 所 需要 的 工作 。 











: Finetuning 能 够 工作 的 原因 在 前 面 已 经 做 了 详细 介绍 ， 这 里 建议 读者 在 使 用 时 ， 优 先 使 用 
忆 Finetuning 去 做 任何 工作 而 不 是 自己 训练 相关 网 络 。 











对 于 普通 的 深度 学 习 模型 来 说 ， 运 行 中 的 程序 调整 是 非常 困难 的 ， 而 Slim 在 一 定 程度 上 
克服 了 这 些 困难 ， 能 够 暂停 运行 中 的 程序 加 以 参数 调整 之 后 重新 运行 程序 。 
Slim 的 函数 和 方法 参见 表 19-1。 





表 19-1 Slim 函数 介绍 


使 用 介绍 
与 variable_scope 类 似 ，arg_scope 是 slim library 的 一 个 常用 参数 ， 可 以 设置 它 指 定 网 络 层 
的 参数 ， 比 如 stride、padding 等 


在 Slim 中 用 于 数据 的 输入 ， 包 括 数据 集 定 义 、 数 据 输 入 以 及 队列 读 取 以 及 数据 解码 等 
evaluation 用 以 评估 模型 的 引用 库 

layers 构建 TensorFlow 模型 所 使 用 的 高 级 内 容 

learning 用 以 训练 模型 的 引用 库 












losses 常用 的 损失 函数 库 
metrics 各 种 最 新 的 评价 指标 ， 例 如 IOU 等 
nets 最 新 的 深度 学 习 模型 定义 ， 例 如 传统 的 VGG、Alexnet 以 及 最 新 的 ResNet 


queues 提供 了 一 个 队列 管理 器 ， 方 便 对 TensorFlow 中 数据 队列 的 开关 进行 管理 
regularizers 多 种 正则 表达 式 
variables 多 种 包装 好 的 供 TensorFlow 直接 使 用 的 参数 











19.2 shim 使 用 方法 介绍 

使 用 Slim 可 以 非常 方便 地 定义 相关 模型 ， 模 型 又 可 以 简洁 地 定义 使 用 已 有 的 Slim 变量 、 
层次 和 范围 。 本 节 将 对 其 进行 详细 介绍 。 
19.2.1 Slim 中 变量 使 用 方法 介绍 


对 于 Slim 来 说 , 创建 一 个 本 地 变量 的 第 一 步 是 需要 定义 一 个 TensorFlow 已 经 初始 化 的 值 
或 者 传 入 一 个 初始 化 方式 。 特 别 是 ， 如 果 这 个 变量 需要 在 不 同 的 设备 上 使 用 ， 例 如 GPU 等 ， 
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就 必须 明确 地 将 其 进行 规范 。 

这 看 起 来 比 TensorFlow 的 变量 使 用 更 加 困难 ， 为 了 解决 这 个 问题 ，Slim 专门 使 用 了 其 内 
置 的 “ 瘦 包 装 器 ”函数 对 变量 进行 设计 ， 使 得 使 用 者 在 不 接触 Slim 内 部 的 同时 自由 地 定义 和 
使 用 Slim 变量 。 

说 了 那么 多 ， 举 个 例子 : 


这 里 使 用 truncated_normal_initializer (截断 正 态 分 布 随 机 数 ， 均 值 mean， 标 准 差 stddev， 
不 过 只 保留 [mean-2*stddev,mean+2*stddev] 范 围 内 的 随机 数 ) ， 定 义 了 一 个 四 维 变量 ，L2 范 数 
对 其 进行 正则 化 处 理 。 

在 经 典 的 TensorFlow 程序 中 ， 变 量 定义 分 成 两 种 ，“ 普 通 变 量 ” 和 “模型 变量 ”。 大 多 
数 的 变量 是 普通 变量 , 可 以 被 创建 并 且 在 整个 程序 运行 周期 内 传送 , 在 需要 的 情况 下 可 以 被 存 
储 到 硬盘 上 。 而 模型 变量 由 于 Python 本 身 的 “lazy” 模 式 ， 只 有 在 运行 时 才 会 被 使 用 ， 使 用 完 
毕 后 即刻 销毁 而 不 会 产生 保存 等 问题 。 

要 区 分 一 个 变量 是 普通 变量 还 是 模型 变量 , 就 要 看 变量 所 使 用 的 目的 。 对 于 任意 一 个 变量 
来 说 , 其 代表 的 是 模型 的 一 个 参数 ,而 这 个 参数 在 模型 的 训练 、 存 储 以 及 被 载 入 后 是 可 以 变化 
或 者 循环 使 用 的 ， 这 种 参数 就 称 为 “普通 变量 ”。 而 “模型 变量 ”没有 这 么 多 功能 。 

例如 , 在 Slim 的 模型 设计 中 经 常 使 用 的 slim.fully_connected 层 和 slim.conv2d 层 中 ， 模 型 
变量 执行 模型 训练 过 程 中 的 一 些 模型 工作 ， 例 如 global_step 用 作 在 一 定 的 循环 之 后 执行 模型 
中 的 特定 任务 。 但 是 ，global_step 并 不 是 一 个 模型 参数 而 是 一 个 模型 变量 ， 其 作用 是 在 模型 训 
练 或 者 执行 完毕 后 立刻 被 销毁 。 同 样 地 ， 一 些 被 即时 计算 的 数据 也 不 属于 普通 变量 ， 例 如 在 计 
算 batch_normalization 时 需要 用 到 的 均值 和 方差 ,只 有 在 需要 时 才 被 计算 ， 而 在 不 需要 的 时 候 
则 立刻 被 销毁 ， 这 就 是 一 个 模型 变量 的 最 好 说 明 。 

下 面 举 个 例子 说 明 模型 变量 与 普通 变量 的 区 别 : 





程序 段 中 通过 函数 的 定义 设计 了 使 用 模型 变量 的 定义 , 之 后 对 其 参数 进行 设置 , 定义 了 创 
建 的 数据 维度 、 初 始 化 方法 以 及 正则 化 的 规则 等 。 具 体 使 用 如 下 所 示 。 


【程序 19-1】 





从 








首先 这 里 定义 了 2 个 变量 ， 分 别 是 模型 变量 weightl 和 weight2， 之 后 通过 对 其 进行 维度 
大 小 的 设 定 和 初始 化 定义 ， 同 样 使 用 L2 对 数据 进行 正则 化 处 理 。 

slim.get_model_variables() 函 数 是 获取 全 部 模型 数据 的 一 个 固定 函数 , 用户 在 定义 完 需 要 的 
模型 变量 值 后 ，Slim 类 自动 将 获取 到 的 模型 变量 添加 到 整体 模型 变量 中 ， 之 后 通过 调用 相关 
的 函数 即 可 将 数据 打印 出 来 。 程 序 19-1 打印 结果 如 图 19-1 所 示 。 


[[ 0. 06057909 0.16407064 -0.04270492] 
[-0. 0534885 0.06915869 0.0744741 ]] 


[array([[ 0.06057909, 0.16407064, -0.04270492], 
[-0. 0534885 ， 0.06915869, 0. 0744741 ]], dtype=float32), array([[ 0.11520072, 0.09805238, -0.09390728], 


[-0. 12928297，-0. 04172363， 0.12953119]],，dtype=f1oat32)] 


[array([[ 0. 06057909， 0.16407064, -0.04270492], 
[-0. 0534885 ， 0. 06915869， 0. 0744741 ]], dtype=float32)] 


图 19-1 程序 打印 结果 
而 普通 变量 的 使 用 方法 如 下 : 
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具体 使 用 如 程序 19-2。 
【程序 19-2】 





具体 结果 请 读者 自行 打印 完成 。 

可 以 看 到 ， 无 论 是 普通 变量 还 是 模型 变量 ， 在 创建 之 后 都 可 以 由 Slim 统一 进行 管理 ， 从 
而 提高 了 变量 的 使 用 效率 , 节省 了 大 量 资源 。 但 是 对 于 一 些 用 户 自由 定义 的 变量 和 数据 ， 如果 
也 想 通 过 slim 进行 统一 管理 ， 则 可 以 通过 如 下 程序 完成 。 


【程序 19-3】 
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在 这 里 首先 定义 了 TensorFlow 通用 变量 weight, 之 后 将 其 加 入 到 slim 的 mode_weight 中 ， 
之 后 调用 和 使 用 的 方法 与 Slim 库 相 同 。 
打印 结果 如 图 19-2 所 示 。 


本 本 
人 





terre (LE le, Ls ll, 
[1., 1., 1.]], dtype=float32)] 


图 19-2 程序 打印 结果 


19.2.2 Slim 中 层 的 使 用 方法 介绍 


对 于 TensorFlow 的 程序 设计 人 员 来 说 ，TensorFlow 所 定义 的 神经 网 络 模型 在 显示 层面 上 
是 由 一 层 层 的 基本 “层面 ”所 构成 。 例 如 前 面 经 常 使 用 的 卷 积 层 、 全 连接 层 以 及 
batch_normalization 层 ， 这 些 层 相 比 一 个 单独 的 TensorFlow 函数 在 框架 内 的 工作 更 加 复杂 ,其 
内 部 涉及 很 多 方面 。 一 个 层 中 往往 又 包含 着 很 多 参数 和 操作 步 又。 举例 来 说 ， 在 TensorFlow 
中 启动 一 个 框架 往往 由 下 面 几 个 步骤 所 组 成 : 


创建 权重 数 和 偏 置 数 。 
使 用 卷 积 核 权 重 对 输入 的 数据 进行 计算 。 
计算 卷 积 结果 与 偏 置 数 之 和 。 
采用 激活 函数 对 数值 进行 激活 。 

这 些 操作 都 需要 程序 设计 人 员 反 复 操作 和 使 用 。 但 是 对 于 Slim 程序 使 用 者 来 说 ， 并 不 需 
要 如 此 复杂 的 操作 ，Slim 提供 了 大 量 方便 操作 的 、 具 有 更 抽象 水 平 的 神经 网 络 操作 方法 ， 例 
如 一 个 卷 积 语句 的 设 定 可 以 通过 Slim 重 写 为 如 下 代码 : 





这 里 只 需要 输入 输出 通道 数 ， 卷 积 核 的 大 小 以 及 卷 积 核 所 处 的 命名 空间 即 可 。 


雷 确定 是 命名 空间 而 不 是 卷 积 层 的 名 称 。 


与 标准 的 TensorFlow 类 似 ，Slim 也 提供 了 所 需要 的 方法 执行 不 同 的 工作 ， 参 见 表 19-2。 
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表 19-2 Slim 各 个 层 以 及 提供 函数 














层 名 称 TF-Slim 
slim.bias add 
slim.batch_norm 
slim.conv2d 

[convzamplane | slim.conv2d _in plane 
| Comearmmese Decon) | slim com2d mmspose 
aComeeted | my comeeted 
slimav poolad 
slimdropout 

shim faten 

slim max_poolad 
shimone hot encoding 
shimseparable conv2ad 
sinamitnom 


使 用 这 些 Slim 提供 的 简单 的 函数 ， 可 以 很 容易 地 构建 出 任何 一 个 神经 元 模型 ， 也 可 以 通 
过 这 些 函 数 去 构成 前 面 所 定义 的 神经 单元 模 组 , 例如 ResNet 和 NIN 模型 中 大 量 出 现 的 重复 性 
单元 。 

例如 当 一 个 被 定义 的 卷 积 层 需要 被 重复 使 用 多 次 ， 可 以 使 用 如 下 的 代码 定义 : 


slim.repeat 是 一 个 循环 计算 函数 , 其 中 6 个 参数 分 别 定义 了 输入 值 、 循环 次 数 、 层 级 类 别 、 
输出 通道 数 、 卷 积 核 大 小 以 及 命名 空间 。 

需要 注意 的 是 , 使 用 repeat 最 后 一 个 参数 定义 的 是 一 个 命名 空间 , 而 对 于 在 其 中 循环 产生 
的 多 个 层 , 则 自动 根据 其 类 型 进行 命名 。 例如 在 上 面 程序 段 中 循环 产生 的 卷 积 层 都 分 别 被 命名 


可 能 有 读者 注意 到 了 ,在 slim.repeat 所 循环 创建 的 层 中 ， 所 有 的 参数 都 是 一 样 的 ,而 对 于 
不 同 的 参数 ， 则 可 以 使 用 slim.stack 来 进行 堆 辣 工作 。 


@ 
~ 
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这 里 是 单个 层 的 定义 和 在 一 个 堆 合 或 者 循环 中 重复 定义 某 些 层级 的 方法 ,不 过 笔者 建议 无 
论 采用 哪 种 设计 方法 ， 首 先 根据 所 需要 达成 的 目的 去 经 济 使 用 。 


19.2.3 Slim 中 参数 空间 使 用 方法 介绍 

在 TensorFlow 中 已 经 有 了 对 于 相关 变量 的 命名 方法 ,例如 使 用 name_scope、variable_scope 
等 ; 而 Slim 中 又 提供 了 一 种 新 的 命名 方式 一 一 参数 空间 arg_scope， 这 种 新 的 命名 参数 空间 方 
法 允许 用 户 将 制定 的 一 个 或 者 多 个 操作 和 一 组 参数 传递 给 arg_scope 中 定义 的 每 个 操作 。 

一 个 较为 保守 的 系列 卷 积 层 的 定义 为 : 





这 种 定义 方法 无 疑 是 正确 而 有 效 的 , 但 是 从 代码 的 简洁 性 上 来 看 , 这 些 代码 行 中 包含 了 太 
多 宛 余 的 参数 ， 各 个 卷 积 层 中 的 初始 化 方法 、 正 则 化 方式 以 及 padding 的 方式 都 是 相同 ， 而 过 
多 的 相同 使 得 代码 的 读 取 难 度 增加 ， 因 此 Slim 增加 了 一 个 新 的 解决 方法 ， 使 得 具有 相同 内 容 
的 参数 统一 进行 管理 。 
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这 种 方式 对 具有 相同 参数 的 层 进行 了 统一 管理 和 设置 ， 但 是 其 并 没有 减少 所 填写 的 部 分 ， 
也 没有 减少 复杂 度 ， 甚 至 可 能 会 增加 阅读 的 困难 ， 如 果 管 理 参数 的 定义 离 层 的 定义 过 远 ， 来 回 
反复 地 确认 参数 反而 会 更 加 浪费 时 间 ， 于 是 Slim 提供 了 一 种 更 为 简洁 的 方法 解决 这 个 问题 。 





使 用 参数 空间 去 对 参数 进行 统一 定义 ,之 后 在 参数 空间 中 所 定义 的 方法 允许 程序 设计 人 员 
将 定义 的 多 个 变量 参数 传递 给 arg_scope 中 定义 的 每 个 操作 。 在 其 中 的 各 个 层 可 以 不 用 显 式 地 
对 这 些 参数 进行 定义 ， 而 只 需要 调用 参数 空间 中 的 定义 即 可 。 

这 种 定义 方法 使 得 参数 定义 简单 清晰 , 便于 被 重新 读 写 和 维护 , 但 是 需要 注意 的 是 , 对 于 
参数 空间 中 所 定义 的 默认 参数 值 ， 是 可 以 被 空间 所 定义 的 各 个 层 中 的 参数 进行 二 次 复写 并 覆 
盖 ， 





在 上 面 的 代码 段 中 , 这 里 使 用 了 2 层 参 数 空间 对 其 中 的 层 进行 定义 , 第 一 层 中 定义 了 激活 
函数 、 权 重 的 初始 化 方法 以 及 正则 化 表达 的 方法 ， 而 在 第 二 层 中 定义 了 步 进 大 小 以 及 padding 
的 方式 。 


在 具体 的 卷 积 中 ， 可 以 根据 需要 覆盖 参数 空间 中 定义 的 权重 初始 化 方法 而 采用 具体 的 
方式 。 
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19.3 引 实战 一 使 用 Slim 定义 VGG16 


VGG16 是 前 面 介绍 过 的 一 种 最 为 常用 的 神经 网 络 模型 ， 其 主要 特点 在 于 模型 架构 简单 、 


便于 理解 ， 而 且 由 于 它 最 终 是 由 3 个 卷 积 层 构成 ， 也 便于 对 其 进行 Finetuning 操作 , 接 上 所 需 
要 的 识别 层 对 不 同 的 目标 进行 识别 。 


19.3.1 VGG16 结构 图 和 TensorFlow 定义 


对 于 VGG16 来 说 ， 其 主要 是 使 用 了 大 量 的 、 具 有 相同 参数 的 卷 积 层 作为 卷 积 单元 去 进行 
计算 。 其 结构 示意 图 如 图 19-3 所 示 。 
































12 Conv3-5) 
Conv3-5 
Con Conv: oo 
conv3-512 | conv3-512 | conv3-512 | conv3-512 
convl-512 | conv3-5) 


VGG Net: Networks systematically composed of 
3x3 CONV layers. (ReLU not shown for brevity.) 














图 19-3 VGG16 结构 图 


19-3 展示 了 VGG16 的 结构 , 里 面 由 多 层 重复 卷 积 结构 所 组 成 , 因此 如 果 采 用 传统 的 方 
式 对 其 定义 ， 则 程序 复杂 而 爱 有 种， 回忆 一 下 前 面 笔 者 实现 的 VGG16 的 模型 程序 代码 : 
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可 以 看 到 , 整个 代码 段 中 有 大 量 的 重复 性 单元 , 这 样 给 程序 设计 人 员 以 及 阅读 者 带 来 了 不 
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便 , 而 且 参 数 越 多 , 在 编写 时 出 现 错误 的 概率 越 大 。 特别 是 个 人 编写 的 一 些 实现 了 卷 积 层 和 池 
化 层 的 工具 程序 ， 往 往 一 个 不 注意 就 会 造成 很 大 的 困难 ， 从 而 使 得 程序 设计 失败 。 


19.3.2 ”使 用 Slim 创建 VGG16 并 训练 


对 于 VGG16 这 种 使 用 卷 积 层 、 池 化 层 以 及 全 连接 层 设 计 的 神经 网 络 模型 ， 其 中 大 量 的 代 
码 可 以 使 用 Slim 来 完成 ， 这 样 能 够 方便 其 调用 和 使 用 。 


1. 第 一 步 : 模型 的 设计 





可 以 看 到 ， 这 里 只 使 用 Slim 自 带 的 函数 ， 首 先 对 所 有 层 中 的 参数 进行 统一 的 配置 ， 之 后 
调用 Slim 自 带 的 重复 参数 对 不 同 层级 中 的 参数 进行 循环 计算 ， 并 将 结果 传递 到 下 一 层 中 ， 最 
后 通过 返回 值 将 其 作为 输出 。 

或 者 使 用 Slim 自 带 的 模型 系统 。 
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2. 第 二 步 : 辅助 函数 的 编写 


如 果 想 对 模型 进行 训练 ,下 一 步 则 需要 编写 辅助 函数 , 损失 函数 的 作用 在 前 面 已 经 做 了 说 
明 。 损失 函 数 的 作用 是 定义 了 一 个 具体 的 、 在 模型 中 表示 真实 值 与 计算 值 之 间 的 差 值 ， 并且 要 
求 在 整个 过 程 中 将 其 最 小 化 的 函数 。 例 如 使 用 交叉 炉 计 算 真 实 的 分 布 与 预测 分 布 之 间 的 差 值 。 

某 些 模型 中 ， 目 前 读者 没有 见 到 ， 就 是 在 整个 模型 中 需要 使 用 多 个 损失 函数 ， 换 句 话说 最 
终 的 损失 函数 就 是 最 小 化 各 种 损失 函数 的 总 和 。 例 如 在 3D 模 型 中 除了 要 检测 不 同 图 像 的 对 比 ， 
还 需要 检测 图 像 的 深度 ， 这 使 得 传统 的 2 维 损失 函数 计算 失真 。 

Slim 中 提供 了 一 种 简单 的 方法 调用 损失 函数 ， 可 以 使 用 如 下 代码 段 : 


其 中 predictions 是 模型 的 预测 值 而 labels 是 模型 的 真实 值 , 通过 计算 其 交叉 炉 的 差 值 从 而 
获得 了 损失 函数 。 这 是 一 个 损失 函数 的 计算 , 而 对 于 多 个 损失 函数 ， 则 需要 调用 专门 的 方法 去 
进行 车 加 。 





softmax_cross_entropy 和 sum_of squares 都 是 用 来 计算 损失 函数 的 Slim 内 置 函 数 ,之 后 将 
2 个 损失 函数 进行 相 加 ， 最 后 调用 了 get_total_loss 来 对 所 有 的 损失 函数 进行 计算 。 可 能 有 读者 
不 习惯 这 种 代码 的 写法 , 但 是 从 Slim 底层 来 看 , 损失 函数 是 被 存放 在 TensorFlow 底层 的 一 个 
集合 中 ， 当 计算 开始 后 ， 将 计算 集合 中 所 有 的 损失 函数 ， 之 后 按 关 系 将 其 进行 释 加 。 


3. 第 三 步 : 训练 模型 
定义 好 模型 和 损失 函数 ， 下 一 步 就 是 对 模型 进行 训练 。 


Slim 中 提供 了 简便 的 方法 对 模型 进行 训练 ， 其 中 包括 损失 函数 的 计算 、 多 种 梯度 模型 以 
及 保存 方法 。 
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在 这 里 leaming.train 函数 对 train_ op 和 存储 的 模型 存档 进行 统一 管理 ,其 中 使 用 前 面 独立 
定义 过 的 梯度 下 降 和 损失 函数 ,此 外 还 可 以 对 数据 按 需 要 进行 存储 , 例如 在 learning.train 中 以 
参数 的 形式 标记 模型 训练 的 次 数 以 及 记录 的 数目 。 

下 面 是 一 个 训练 模型 的 代码 段 : 





首先 定义 了 save_model 作为 模型 的 存储 地 址 , 之 后 调用 了 导入 的 VGG16 模型 , 在 这 里 根 
据 需 要 将 生成 的 数据 做 交叉 炉 计 算 损 失 函 数 ， 之 后 生成 训练 节点 并 使 用 存储 地 址 开始 训练 任 
务 。 

4. 第 四 步 : 验证 模型 

对 模型 的 验证 是 训练 模型 必 不 可 少 的 一 个 重要 环节 。 如 果 想 要 看 看 模型 在 实际 工作 中 的 具 
体 情况 ,就 需要 选择 一 组 合适 的 评价 指标 , 能够 在 模型 的 训练 或 者 执行 过 程 中 分 析 模 型 的 性 能 、 
效率 和 负载 等 情况 ， 并 真实 地 记录 和 输出 评价 得 分 。 

在 经 典 的 TensorFlow 程序 设计 中 ， 衡 量 一 个 模型 好 坏 最 重要 的 指标 就 是 损失 函数 ;但 是 
在 Slim 中 ， 除 了 损失 函数 之 外 ， 还 有 更 多 衡量 模型 的 指标 可 以 供 参考 。 

Slim 中 专门 有 一 个 “metrics” 类 用 以 使 得 模型 的 度量 工作 变 得 简单 易 用 ， 抽 象 地 说 ，Slim 
衡量 过 程 可 以 用 以 下 3 个 部 分 进行 : 


@ ”初始 化 初始 化 变量 指标 开始 计算 。 
@ ”计算 值 : 使 用 现成 的 函数 进行 操作 。 
@ ”终止 化 : 执行 各 种 操作 来 计算 各 种 值 。 
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举例 来 说 ， 如 果 需 要 使 用 “调和 平均 数 ” 作 为 模型 的 验证 参数 ， 则 首先 将 其 初始 化 为 0; 
之 后 通过 模型 的 计算 , 记录 其 计算 结果 标签 ,以 及 其 绝对 差 值 和 差 之 和 ; 最 后 除 以 一 个 常数 作 
为 最 终 的 结果 。Slim 提供 的 方法 主要 有 以 下 几 种 : 





streaming_mean_absolute_error 是 求 取 模型 的 预测 值 与 真实 值 之 间 的 绝对 误差 ， 
streaming_mean_relative_error 是 取 模 型 的 预测 值 与 真实 之 间 的 相对 误差 ， 而 percentage_less 的 
作用 是 减少 误差 的 百分比 。 

返回 值 为 value op 和 update op。value_op 的 作用 是 返回 当前 的 度量 值 ， 而 update_op 的 
作用 对 以 上 的 步骤 进行 整体 操作 并 返回 相应 的 度量 值 。 


1 日,4， 安 战 使 用 Slim 识 寺 多 层 感 和 器 ( MLP ) 


多 层 感知 器 (Multi-layer Perceptron，MLP) 是 一 种 前 向 结构 的 人 工 神经 网 络 ， 映 射 一 组 
输入 向 量 到 一 组 输出 向 量 ， 如 图 19-4 所 示 。MLP 可 以 被 看 作 是 一 个 有 向 图 ， 由 多 个 节点 层 组 
成 , 每 一 层 全 连接 到 下 一 层 。 除了 输入 节点 , 每 个 节点 都 是 一 个 带 有 非 线 性 激活 函数 的 神经 元 

(或 称 处 理 单元 ) 。 一 种 被 称 为 反 向 传播 算法 的 监督 学 习 方 法 常 被 用 来 训练 MLP。MLP 是 感 
知 器 的 推广 ， 克 服 了 感知 器 不 能 对 线性 不 可 分 数据 进行 识别 的 弱点 。 





19-4 ”多 层 感知 器 图 


MLP 神经 网 络 是 常见 的 神经 网 络 算法 ， 一 般 实际 中 使 用 的 MLP 由 一 个 输入 层 、 一 个 输出 
层 和 一 个 或 多 个 隐藏 层 组 成 。 在 MLP 中 的 所 有 神经 元 都 差不多 , 每 个 神经 元 都 有 几 个 输入 ( 连 
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接 前 一 层 ) 神经 元 和 输出 (连接 后 一 层 ) 神经 元 ， 该 神经 元 会 将 相同 值 传递 给 与 之 相连 的 多 个 
输出 神经 元 。 一 个 神经 网 络 训练 网 将 一 个 特征 向 量 作为 输入 , 将 该 向 量 传递 到 隐藏 层 , 然后 通 
过 权重 和 激励 函数 来 计算 结果 ， 并 将 结果 传递 给 下 一 层 ， 直 到 最 后 传递 给 输出 层 才 结束 。 


19.4.1 MLP 的 Slim 实现 


首先 是 对 使 用 Slim 程序 设计 进行 分 析 。 因 为 需要 实现 的 MLP 是 一 个 程序 计算 的 整体 过 程 ， 
即 需要 将 变量 放置 在 一 个 被 命名 的 变量 空间 中 , 以 便 Slim 所 使 用 的 底层 TensorFlow 框架 能 够 
对 其 分 层 和 建立 框架 图 来 处 理 ， 这 也 能 够 便于 可 视 化 使 用 TensorFlow 服务 。 

与 传统 的 神经 网 络 算法 一 致 ， 多 层 感知 器 中 还 使 用 了 全 连接 层 和 激活 函数 对 图 进行 计算 。 
最 常用 的 就 是 L2 权重 衰减 以 及 Relu 激活 函数 , 之 后 通过 “参数 空间 ”对 其 命名 后 计算 并 传递 。 
同样 ，dropout 一 样 被 使 用 在 MLP 的 Slim 实现 中 ， 虽 然 在 更 为 复杂 的 神经 网 络 设计 中 有 时 候 
往往 并 不 再 使 用 dropout， 但 主要 将 其 作为 防止 过 拟 合 的 一 种 通用 手段 。 

1. 第 一 步 : 编程 分 析 

对 于 多 层 感 知 器 , 这 里 笔者 建立 了 一 个 包含 2 个 全 连接 层 作为 隐藏 层 的 多 层 感 知 器 , 其 最 
终 输 出 为 一 个 具体 的 常数 。 这 本 身 并 不 复杂 , 通过 前 面 的 学 习 ， 相 信 现 在 读者 可 以 非常 容易 地 
设计 并 编写 出 对 应 的 、 简 单 的 TensorFlow 代码 。 

但 是 ， 笔 者 希望 通过 这 个 步骤 首先 解释 一 下 Slim 的 整体 架构 。 所 有 的 Slim 都 在 专门 的 
Graph 中 运行 ， 当 函数 被 调用 时 ，Slim 将 产生 定义 的 参数 节点 ， 并 且 将 其 传递 给 底层 的 Graph 
框架 中 的 那个 专门 命名 的 参数 空间 , 而 且 当 一 个 节点 所 对 应 的 参数 空间 被 创建 时 ， 其 额外 的 参 
数 节点 变量 也 被 添加 到 专门 的 图 中 。 

Slim 使 用 参数 空间 给 其 中 所 包括 的 节点 进行 统一 命名 ， 这 样 做 的 好 处 是 产生 的 图 可 以 根 
据 需 要 被 分 成 若干 层 , 在 图 中 的 节点 和 变量 可 以 根据 命名 统一 地 查找 和 被 操作 。 通过 前 面 的 内 
容 也 可 以 知道 ， 使 用 参数 空间 的 好 处 还 包括 ， 可 以 对 其 中 所 使 用 的 TensorFlow 层 定 义 的 激活 
函数 和 参数 的 初始 化 方式 做 出 统一 的 管理 。 





同时 为 了 使 用 Finetuning， 在 每 一 层 的 节点 输出 处 都 使 用 了 一 个 列表 用 以 记录 计算 出 的 每 
层 的 输出 值 。 这样 做 的 好 处 是 在 层 的 结尾 处 可 以 根据 需要 截取 或 者 加 载 上 更 多 的 分 类 层 ， 从 而 
满足 不 同 的 需求 。 完 整 代码 如 程序 程序 19-4 所 示 。 


【程序 19-4】 
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最 终 获 得 两 个 返回 值 , prediction 以 及 end_point。prediction 是 模型 的 预测 值 , 而 end_point 
是 用 以 记录 每 个 层 输出 值 的 列表 。 


2. 第 二 步 : 验证 模型 结构 
对 于 设计 的 模型 需要 相应 的 方式 去 验证 模型 的 结构 , 在 这 里 只 需要 传 入 相应 的 占 位 符 , 打 
印 出 每 层 的 维度 和 所 对 应 的 参数 即 可 。 
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打印 结果 如 图 19-5 所 示 。 


Tensor (“mlp_model /prediction/BiasAdd:0”, shape=(?, 1), dtype=float32) 

layers 

name = fc2, Node = Tensor (“mlp_model/fc2/Relu:0”, shape=(?, 16), dtype=float32) 

name = out, Node = Tensor (“mlp_model /prediction/BiasAdd:0”, shape=(?, 1), dtype=float32) 
name = fcl,Node = Tensor (“mlp_model /fcl/Relu:0”, shape=(?, 32), dtype=float32) 


Parameters 

name = mlp_model /fcl/weights:0, shape = (1, 32) 

name = mlp_model/fcl/biases:0, shape = (32,) 

name = mlp_model/fc2/weights:0, shape = (32, 16) 

name = mlp_model/fc2/biases:0, shape = (16,) 

name = mlp_model/prediction/weights:0, shape = (16, 1) 
name = mlp_model/prediction/biases:0, shape = (1,) 


图 19-5 打印 的 图 层 以 及 参数 类 别 和 维度 
在 每 一 层 说 明 中 可 以 看 到 每 一 层 的 名 称 、 激活 函数 以 及 维度 , 而 参数 部 分 对 参数 的 名 称 以 
及 维度 做 了 说 明 。 


这 里 可 以 看 到 , 通过 设置 的 命名 空间 , 模型 中 所 有 的 层 和 节点 都 默认 在 一 个 统一 的 参数 空 
间 命 名 下 的 图 中 运行 。 
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3. 第 三 步 : 创建 数据 集 
因为 是 演示 模型 ， 笔 者 通过 创建 随机 数据 的 方式 创建 数据 集 ， 代 码 如 下 : 
【程序 19-5】 





这 里 首先 创建 了 一 个 batch_size 大 小 的 随机 数据 集 ， 之 后 计算 每 个 值 的 余弦 数 ， 并 且 在 每 
个 数 之 后 加 上 一 个 噪声 修正 结果 。 数 据 集 的 图 形 化 表示 如 图 19-6 所 示 。 
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图 19-6 数据 集 的 图 形 化 表示 
数据 集 被 创建 完毕 后 并 不 能 直接 使 用 。Slim 要 求 输入 的 数据 必须 是 能 够 直接 在 TensorFlow 
中 使 用 的 Tensor 文件 , 因此 在 数据 集 创建 后 , 还 需要 一 个 步骤 将 其 转化 为 Tensor 格式 的 数据 。 


这 样 做 的 好 处 是 可 以 使 得 Slim 自动 管理 输入 数据 的 大 小 对 模型 进行 训练 ， 并 且 能 够 不 停 地 对 
参数 进行 相应 的 更 新 以 及 记录 循环 的 次 数 。 其 代码 如 下 : 
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首先 通过 给 自 带 的 constant 将 其 转化 成 Tensor 格式 ， 之 后 重 构 了 输入 维度 ， 使 之 能 够 适 
应 新 的 大 小 。 


一 这 里 的 转化 步骤 需要 在 一 个 对 话 中 完成 而 不 能 直接 运行 。 


4. 第 四 步 : 模型 的 训练 
对 于 模型 的 训练 来 说 ， 最 重要 的 就 是 损失 函数 的 确定 。 在 Slim 中 为 了 简化 程序 的 编写 过 


程 , 提供 了 大 量 的 、 已 定义 好 的 损失 函数 供 选择 。 除 了 前 面 所 使 用 的 交叉 烂 损 失 函 数 外 ， 还 提 
供 了 额外 的 损失 函数 ， 例 如 均 方差 误差 和 绝对 值 误 差 。 


























可 以 看 到 随 着 误差 设 定 方法 的 改变 , 整体 的 训练 函数 的 编写 方式 也 发 生 了 改变 。 整体 的 代 
码 如 下 所 示 。 


【程序 19-6】 
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首先 需要 说 明 的 是 ， 当 采用 Slim 进行 统一 训练 模型 管理 的 时 候 ， 需 要 设置 一 个 模型 的 存 
储 地 址 ， 这 样 使 得 模型 能 够 自动 地 按 步 骤 存 档 。 


«tf.logging.set verbosity(tf.loggingINF0) 
这 条 语句 是 用 于 在 控制 台 输出 自动 管理 的 模型 训练 步骤 ， 如 图 19-7 所 示 。 


INFO:tensorflow:Starting Session. 

INFO:tensorflow:Starting Queues. 
INFO:tensorflow:global_step/sec: inf 

INFO:tensorflow:global step 200: loss = 1.7742 (0.00 sec/step) 
INFO:tensorflow:global step 400: loss = 1.0058 (0.00 sec/step) 
INFO:tensorflow:global step 600: loss = 0.8507 (0.00 sec/step) 
INFO:tensorflow:global step 800: loss = 0.7366 (0.00 sec/step) 
INFO:tensorflow:global step 1000: loss = 0.8317 (0.00 sec/step) 
INFO:tensorflow:Stopping Training. 

INFO:tensorflow:Finished training! Saving model to disk. 


19-7 ”训练 模型 的 控制 台 输出 


在 控制 台中 , 每 一 次 循环 和 损失 值 的 计算 都 可 以 明确 地 看 到 , 而 这 些 相 关 的 定义 都 是 在 以 
下 代码 中 所 定义 和 完成 。 
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5. 第 四 步 ( 补充 ) : 使 用 多 种 损失 函数 组 合 模型 的 训练 


这 里 额外 加 一 步 ，Slim 中 提供 了 多 种 损失 函数 对 模型 进行 计算 ， 而 实际 操作 的 时 候 读者 可 能 
并 不 会 只 使 用 一 个 损失 函数 进行 模型 的 训练 ， 因 此 可 以 交叉 组 合 多 个 损失 函数 进行 训练 任务 。 


可 以 看 到 ， 这 里 分 别 定义 了 均 方 误差 和 绝对 值 误差 ,通过 组 合 将 其 结果 县 加 到 一 个 
total_loss 上 。 完 整 代 码 如 下 所 示 。 


【程序 19-7】 
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在 上 面 的 代码 段 中 可 以 看 到 ， 这 里 沿用 了 传统 的 从 Session() 形 式 的 代码 段 对 程序 进行 设 
计 ， 并 且 在 最 后 打印 出 第 一 层 计算 的 值 ， 如 图 19-8 所 示 。 


[[ 0. 0. 0. 28785607 ..., 0. 0. 0. ] 
[ 0. 0. 0.39850548 ...， 0. 0. 0. ] 
[ 0. 0. 0.2073942 ..-， 0. 0. 0. ] 
[ 0. 0. 0.31486344 ...， 0. 0. 0. ] 
[ 0. 0. 0.23849466 ...， 0. 0. 0. ] 
[ 0. 0. 0.13977416 ..., 0. 0. 0. ]] 


图 19-8 end_point 第 一 层 全 连接 层 的 计算 值 
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如 果 需 要 对 模型 的 参数 进行 打印 ， 可 以 将 其 改 成 如 下 语句 : 


这 里 打印 出 模型 的 全 部 参数 和 通过 一 个 具体 参数 名 获取 的 内 容 。 需要 注意 的 是 , 这 里 直接 
打印 的 话 会 打印 出 一 个 向 量 名 ， 因 此 如 果 需 要 完整 值 的 话 ， 则 需要 通过 对 话 重 新 运行 ， 其 结果 
如 图 19-9 所 示 。 


[<tf. Variable“mlp_model/fcl/weights:0” shape=(1，32) dtype=float32_ref)>, 

[array([[-0.13680974，-0. 02350246，-0. 06577163，-0. 03413785，-0. 31587672, 
-0. 03160833，-0. 08436534，-0. 29309222，-0. 03239585， 0. 00093449， 
-0. 22916175，-0. 18670414，-0. 06562226，-0. 14577553，-0. 22292967， 
0. 00877734，-0. 06626118，-0. 18179335，-0. 05890931，-0. 13325971, 
0.000379 ，-0.16339111，-0. 07211021， 0. 00685999，-0. 04999366， 
-0. 02419433，-0. 04728955， 0. 0017713 ，-0. 06428488， 0. 00815339, 
-0.12959063，-0. 0536698 ]]，dtype=float32)] 








图 19-9 模型 参数 张 量 与 具体 的 参数 什 


6. 第 五 步 : 复 用 使 用 过 的 模型 


对 于 训练 好 的 模型 最 重要 的 需求 就 是 对 其 进行 复 用 。 同 样 对 于 训练 好 的 模型 也 可 以 使 用 
TensorFlow 或 者 Slim 提供 的 方法 对 其 进行 复 用 ， 代 码 如 下 : 


【程序 19-8】 
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TensorFlow ; 





可 以 看 到 ， 程 序 直接 调用 了 TensorFlow 中 的 Saver 类 对 数据 进行 恢复 ， 
让 train.latest_checkpoint 函数 是 获取 了 存档 文件 夹 中 最 新 的 存档 数据 的 函数 ， 之 后 通过 传 入 需 
要 验证 的 数据 集 对 其 进行 计算 。 
19.4.2 ”MLP 模型 的 评估 


对 于 模型 的 训练 来 说 , 其 最 大 的 要 求 就 是 损失 函数 值 的 最 小 化 。 但 是 仅仅 观察 和 以 损失 函 
数值 作为 判断 模型 好 坏 的 依据 是 远 远 不 够 的 。Slim 中 还 提供 了 简单 的 、 使 用 计算 均 方 误差 和 
平均 绝对 误差 指标 的 函数 。 


第 一 行 是 计算 相对 误差 函数 ， 而 第 二 行 是 计算 绝对 误差 函数 。 使 用 公式 进行 表示 的 话 : 


绝对 误差 =| 测量 值 - 真实 值 | ”( 即 测 量 值 与 真实 值 之 差 的 绝对 值 ) 
相对 误差 =| 测量 值 - 真实 值 /真实 值 〈 即 绝对 误差 所 占 真实 值 的 百分比 ) 


这 里 笔者 稍微 解释 一 下 这 两 个 值 的 区 别 , 对 于 相对 误差 和 绝对 误差 相对 误差 更 能 够 反映 
出 测量 结果 对 整体 的 影响 ， 而 绝对 误差 通常 只 是 作为 一 个 计算 相对 误差 的 辅助 值 而 存在 。 


【程序 19-9】 
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打印 结果 如 图 19-10 所 示 。 


( Nean Squared Error ，0.0) 
(Nean Absolute Error ，0.0) 


(Nean Squared Error ，0. 45175344) 
( Nean Absolute Error ，0.57004738) 


图 19-10 ”相对 误差 和 绝对 误差 
这 里 分 别 打印 出 2 组 数据 , 第 一 组 是 当前 批 次 中 的 误差 值 , 而 第 二 组 是 下 一 批 次 中 的 误差 
值 。 首 先 计算 下 一 批 次 的 误差 值 的 好 处 是 可 以 在 对 权重 进行 修正 之 前 进行 一 个 数据 的 统计 。 
可 能 有 读者 注意 到 ， 这 里 在 重新 进行 模型 载 入 的 时 候 ， 使 用 的 是 tftrain.Supervisor 函数 ， 


这 样 做 的 好 处 是 , 可 以 使 用 训练 模型 时 具有 初始 化 特征 的 那个 会 话 , 以 便 在 需要 的 时 候 调用 其 
初始 化 方法 。 


1 日 .slim 数据 读 取 方式 


TensorFlow 能 够 识别 的 图 像 文件 ， 可 以 通过 NumPy， 使 用 世 Variable 或 者 tf.placeholder 
加 载 进 TensorFlow; 也 可 以 通过 自 带 函数 (tf.read) 读 取 , 当 图 像 文件 过 多 时 , 一 般 使 用 pipeline 
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通过 队列 的 方法 进行 读 取 。 笔 者 也 反复 强调 ， 推 荐 使 用 TensorFlow 自由 的 数据 转化 格式 
TFrecorder 作为 数据 的 转化 格式 。 

作为 TensorFlow 高 级 应 用 类 库 的 Slim 来 说 ， 也 有 专门 的 数据 读 取 方 式 ， 这 种 方式 是 在 
TensorFlow 数据 读 取 的 基础 上 做 了 一 个 包装 而 来 的 ， 在 包装 性 能 的 基础 上 也 简化 了 程序 编写 
的 复杂 度 。 





19.5.1 Slim 数据 读 取 格式 

Slim 中 通过 两 个 步骤 对 数据 进行 读 取 : 

Dataset 

DatasetDataProvider. 

对 于 一 个 输入 数据 来 说 ，Dataset 将 数据 转化 为 可 读 取 的 形式 ， 而 DatasetDataProvider 用 
以 对 数据 进行 读 取 。 

1. 第 一 步 : 数据 转化 为 Dataset 

一 个 Dataset 包含 Slim 需要 读 取 数 据 的 基本 信息 , 例如 数据 的 列表 和 具体 解码 的 方式 ， 并 
且 还 包括 一 些 元 数据 ， 例 如 数据 标签 、 每 次 读 取 的 数据 尺寸 大 小 ， 以 及 dataset 所 提供 的 数据 
张 量 。 如 图 19-11 所 示 为 猎狗 大 战 的 图 片 。 





图 19-11 猎狗 大 战 


举 个 例子 来 说 ， 对 于 输入 的 图 片 数 据 集 ，Dataset 包括 图 片 的 标签 、 所 标注 的 边框 注释 、 
甚至 于 Dataset， 可 以 让 使 用 者 向 特定 的 目标 写 入 专门 的 数据 而 无 须 估计 目标 的 格式 和 种 类 。 

更 为 具体 地 来 看 ，Dataset 在 底层 使 用 的 是 TFRecords， 并 且 Dataset 遵循 其 对 数据 的 命名 
规则 和 键 值 对 的 设置 形式 ， 并 将 其 插入 到 例子 记录 中 。 

2. 第 二 步 : DatasetDataProvider 读 取 数据 


DatasetDataProvider 的 作用 是 对 Slim 中 的 各 个 Dataset 进行 数据 读 取 ， 其 能 够 通过 不 同方 
式 高 效 地 读 取 不 同 的 可 配置 数据 , 并 将 其 稳定 的 形式 输入 到 训练 模型 中 , 会 对 其 效率 产生 重大 
影响 。 例 如 它 可 以 是 单线 程 或 者 多 线程 ,如果 数 据 分 片 在 多 个 文件 之 中 ， 则 它 可 以 整合 不 同 的 
文件 碎片 或 者 并 行 地 从 每 个 文件 中 读 取 数 据 。 
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19.5.2 生成 TFRecords 格式 数据 

Slim 的 数据 读 取 是 在 TFRecords 格式 的 数据 基础 之 上 ， 因 此 在 使 用 Slim 对 数据 进行 操作 
之 前 ， 需 要 将 数据 生成 专用 的 TFRecords 格式 对 数据 进行 操作 。 

1. 第 一 步 : 生成 TFRecords 格式 数据 


首先 对 于 数据 的 生成 , 一般 情况 下 , 某 个 类 别 的 图 片 会 根据 其 类 别 使 用 特定 的 文件 夹 进行 
存放 ， 因 此 可 以 根据 不 同 的 文件 夹 存放 位 置 和 目录 对 数据 进行 分 类 ， 如 图 19-12 所 示 。 


会 到 库 中 ” | 共享 "新 建文 件 赤 
pe = 








kL cat 
站 dog 


图 19-12 ” 猫 狗 大 战 文件 存放 位 置 
具体 生成 时 可 以 使 用 传 入 的 参数 对 其 进行 处 理 ， 完 整 代码 如 下 : 
【程序 19-10】 
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通过 程序 中 的 参数 也 可 以 看 到 ，cwd 指定 了 数据 文件 存放 的 主 目录 ， 而 classes 对 文件 的 
子 文件 夹 类 别 进 行 了 分 类 ， 在 这 里 根据 提取 出 的 文件 顺序 依次 将 序号 标记 为 0、1、2、3…… 
最 后 生成 一 个 由 用 户 定义 的 tfrecords 的 文件 名 。 


2. 第 二 步 : 独立 读 取 TFRecords 格式 中 保存 的 数据 
在 TFRecords 进行 数据 生成 之 后 ， 需 要 对 数据 进行 读 取 ， 代 码 如 下 : 
【程序 19-11】 





这 里 通过 创建 队列 的 形式 对 数据 进行 了 读 取 ，example 是 用 tftrain.Example 创建 的 一 个 样 
本 实例 , 也 就 是 一 张 图 片 的 记录 , 其 中 包含 有 记录 的 属性 , 是 tftrain.Features 创建 的 一 个 实例 。 
解析 tfrecoreder 文件 的 解析 器 是 parse_single_example， 阅 读 器 是 tTFRecordReader。 

额外 需要 读者 注意 的 是 ， 这 里 使 用 TensorFlow 在 框架 内 部 使 用 多 线程 对 数据 进行 读 取 。 
框架 sess 每 run 一 次 ，img 节点 就 会 执行 一 次 操作 ， 因 为 fetch 到 了 数据 ， 所 以 队列 就 弹出 。 
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同时 还 在 程序 的 最 终 部 分 对 生成 的 数据 进行 了 重 构 , 这 样 做 的 好 处 是 在 图 读 取 时 , 就 可 以 重新 
根据 需要 生成 图 片 数 据 的 大 小 ， 从 而 重新 对 图 片 进 行 构 造 。 


3. 第 二 步 ( 补充 ) : 批量 读 取 TFRecords 格式 中 保存 的 数据 


对 于 TensorFlow 或 者 Slim 来 说 ,除了 单独 读 取 数 据 并 将 其 送 入 模型 中 训练 ， 还 有 一 种 是 
批量 地 读 取 数据 ， 而 且 实际 上 大 部 分 时 候 模型 需要 输入 一 个 小 批量 数据 ， 代 码 如 下 : 


【程序 19-12】 
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取 数 据 和 解码 数据 与 之 前 基本 相同 ， 针 对 不 同 格式 数据 集 使 用 不 同 阅读 器 和 解码 器 即 可 。 
tttrain.shuffle_batch 函数 是 批量 产生 数据 的 核心 ,其 通过 外 部 函数 获得 批 次 的 大 小 以 及 数据 读 
取 的 列表 ， 从 而 能 够 确定 缓存 多 少 。 


至 于 缓存 区 存储 数量 的 多 少 ，Tensoflow 官方 推荐 计算 公式 如 下 : 


capacity=min_after_ dequeue+(num_threads+a small safety margin)*batch_size 
其 中 min_after dequeue 值 越 大 ， 随 机 采样 的 效果 越 好 ， 但 是 消耗 的 内 存 也 越 大 。 





19.5.3 使 用 Slim 读 取 TFRecords 格式 数据 


Slim 的 数据 读 取 在 TFRecords 格式 的 数据 基础 之 上 ， 因 此 在 使 用 Slim 对 数据 进行 操作 之 
前 ， 需 要 将 数据 生成 专用 的 TFRecords 格式 对 数据 进行 操作 。 其 基本 代码 如 下 : 


【程序 19-13】 
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这 里 使 用 了 若干 个 包装 类 , 将 已 有 的 TFRecords 重新 进行 包装 , 并 将 包装 获得 数据 通过 队 
列 进行 输出 。 


19.6 本 章 小 结 


Slim 是 TensorFlow 中 一 个 非常 重要 的 辅助 类 库 , 本 章 简要 对 Slim 各 个 部 分 做 了 一 个 介绍 ， 
并 且 使 用 Slim 提供 的 方法 生成 了 一 个 多 层 感知 机 。 一 般 而 言 ， 这 种 较为 简化 的 系统 在 大 规模 
图 像 处 理 的 时 候 使 用 不 多 , 但 是 对 于 一 般 智能 家 居 等 不 需要 太 复 杂 的 人 工 智能 操作 的 地 点 , 则 
可 以 起 非常 大 的 作用 。 

本 章 学 习 的 是 Slim 的 基本 操作 和 使 用 , 在 下 一 章 将 在 此 基础 上 学 习 Slim 训练 一 个 卷 积 神 
经 网 络 和 使 用 预 训练 的 模型 进行 Finetuning 的 步 又 和 方法 。 


本 章 开 始 进入 Slim 高 级 学 习 部 分 .Slim 是 一 个 构建 在 TensorFlow 基础 上 的 高 级 开发 类 库 ， 
在 上 一 章 的 学 习 中 已 经 对 其 基本 构建 和 功能 做 了 基本 介绍 , 并 用 其 搭建 了 一 个 非常 简单 的 浅 层 
神经 网 络 模型 。 

本 章 开始 将 使 用 Slim 构建 更 为 高 级 的 模型 ， 一 个 对 多 种 花 杂 进行 分 类 的 卷 积 神经 网 络 。 
这 将 使 用 已 有 的 数据 集 进 行 处 理 ， 并 会 使 用 大 量 已 有 的 辅助 程序 。 这 点 笔者 会 给 予 帮助 , 读者 
要 留意 到 哪里 下 载 这 些 程序 。 

除 此 之 外 ， 本 章 中 会 学 习 使 用 Slim 的 Finetuning 方式 ， 这 是 一 个 非常 重要 的 内 容 ， 在 后 
面 进行 的 图 像 处 理 和 图 像 分 割 中 应 用 非常 广泛 。 

本 章 的 难度 也 较 大 ， 和 希望 读者 能 够 认真 学 习 。 





使 用 Slim 创建 卷 积 神经 网 络 ( CNN ) 


对 于 使 用 Slim 进行 神经 网 络 设计 并 不 是 一 件 难 事 ， 在 上 一 章 笔 者 已 经 带领 读者 使 用 Slim 
设计 并 实现 了 一 个 浅 层 全 连接 神经 网 络 。 本 章 将 使 用 Slim 设计 并 完成 一 个 卷 积 神经 网 络 CNN。 

当然 如 果 读 者 是 从 头 看 到 本 章 ， 那 么 使 用 Slim 搭建 一 个 简单 的 卷 积 神经 网 络 会 是 一 件 非 
常 容 易 的 事 。 但 是 笔者 写作 本 章 的 目的 并 不 在 于 此 , 而 是 希望 通过 本 章 加 深 读者 使 用 已 有 数据 
训练 Slim 设计 的 模型 。 


20.1.1 数据 集 获 取 

对 于 神经 网 络 模 型 来 说 , 最 重要 的 是 数据 集 的 获取 , 在 这 里 可 以 使 用 一 些 已 经 存在 的 数据 
， 但 是 在 这 之 前 需要 学 习 一 下 怎么 使 用 一 些 辅助 函数 。 

图 20-1 所 示 的 是 一 组 辅助 函数 ， 读 者 可 以 在 如 下 地 址 自行 下 载 : 
https://github.com/tensorflow/models/tree/master/research/slim/datasets 

也 可 以 使 用 笔者 提供 的 程序 包 下 载 。 

datasets 是 一 组 用 于 创建 数据 集 的 函数 ,其 中 可 以 看 到 这 里 提供 了 MNIST、cifar10 等 数据 
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集 的 处 理 函数 ， 在 本 章 中 将 使 用 flower.py 来 获取 一 组 5 种 类 型 的 花灯 数据 并 使 用 卷 积 神经 网 


[全 县 呈 在 浊 行 本 章 后 续 的 工作 之 前 ， 笔 者 强烈 建议 读者 下 载 datasets 函数 包 并 将 其 导入 到 工程 文 
件 中 。 | 





国 _init_py Full code refactor and added all networks 

目 cifarl10py Slim: Fix typo at datasets/cifar10.py 

dataset_factory.py Full code refactor and added all networks 

国 dataset_utils py added python3 support to read label file 

download_and_convert_cifarlo py Fullcode refactor and added all networks 

国 download_and_convert_flowers.py Full code refactor and added all networks 

上 国 download and convert mnistpy Update download_and_convert_mnist py for 1 0 and python3 compatibillty 
flowers.py Slim: Typos at datasets/flowers .py 

国 imagenetpy Full code refactor and added all networks 

目 mnistpy Slim: Fix typo at datasets/mnist py 


图 20-1 ”datasets 辅助 函数 


1. 第 一 步 : 下 载 数据 
首先 第 一 步 是 下 载 所 需要 的 数据 。 对 于 下 载 下 来 的 文件 的 存放 地 址 ,笔者 使 用 了 一 个 专门 
的 文档 用 于 存放 一 些 全 局 变量 ， 其 内 容 如 下 : 


之 后 是 数据 的 下 载 ， 这 里 读者 可 以 自行 下 载 数据 并 将 其 解压 到 上 面 代码 段 的 制定 目录 中 ， 
也 可 以 运行 程序 20-1 来 获取 相应 的 数据 集 。 


【程序 20-1】 





这 段 代 码 没什么 难度 , 需要 读者 注意 的 是 , 一 定 要 先 下 载 相应 的 函数 集 并 将 其 导入 到 使 用 
的 工程 中 ， 之 后 根据 给 定 的 url 自行 下 载 数据 并 对 其 进行 解压 。 
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2. 第 二 步 : 改变 数据 集 格式 


对 于 下 载 下 来 的 数据 ， 它 是 已 经 被 处 理 好 并 根据 名 称 进行 分 类 的 tiecord 格式 数据 。 如 图 
20-2 所 示 。 


避 flowers.tar.gz 

需 flowers_train_00000-of-00005.tfrecord 

需 fowers train_00001-of-00005.tfrecord 

[3 flowers_train_00002-of-00005.tfrecord 

需 fowers train_00003-of00005.tfrecord 

坑 fowers_train_00004-of-00005.tfrecord 

需 flowers_validation_00000-of-00005.tfrecord 
需 flowers_validation_00001-of-00005.tfrecord 
需 flowers_validation_00002-of-00005.tfrecord| 
需 flowers_validation_00003-of-00005.tfrecord 
需 flowers_validation_00004-of-00005.tfrecord 
证 labels-bt 

四 LICENSE.txt 


图 20-2 flower 中 下 载 下 的 数据 集 


而 对 于 下 载 下 来 的 数据 ， 上 一 章 也 提 及 ， 需 要 将 其 转化 为 Slim 专用 的 dataset 格式 ， 其 代 
码 段 如 下 : 








这 里 使 用 下 载 下 来 的 数据 处 理 函数 对 数据 进行 载 入 ， 之 后 对 其 进行 转换 ， 转 成 Slim 所 需 
要 的 数据 格式 。 可 能 有 读者 有 兴趣 对 其 中 的 数据 进行 查看 ， 则 全 部 代码 如 下 所 示 。 


【程序 20-2】 
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import tensorflow.contrib.slim.python.slim.data.dataset data provider as 
Providerr 
data provider = providerr.DatasetDataProvider( 
dataset, common queue capacity=32, common queue min=1) 
image, label = data provider.get(['image', 'label']) 


with tf.Session() as sess: 
with slim.queues.QueueRunners (sess): 
for i in range(5) : 
np_image, np_label = sess.run([image，1label]) 
height, width, _ = np_image.shape 
class name = name = dataset.labels to names[np labell] 


plt.figure() 

Plt.imshow (np_image) 

plt.title('%s, %d x %d' % (name, height, width)) 
plt.axis('off') 

Plt.show() 


最 终结 果 如 图 20-3 所 示 。 





图 20-3 flower 中 下 载 下 的 数据 集 


20.1.2 创建 卷 积 神经 网 络 
下 面 使 用 上 面 数据 创建 一 个 简单 的 卷 积 神经 网 络 ， 代 码 如 下 。 
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【程序 20-3】 


这 里 创建 了 一 个 类 Slim_cnn 类 ， 并 在 初始 化 中 对 其 进行 赋值 ， 之 后 的 模型 函数 对 传递 进 


的 数据 进行 计算 并 返回 计算 值 。 

在 模型 真正 进行 训练 和 计算 之 前 , 需要 对 其 进行 一 个 测试 , 随机 产生 一 个 图 片 数 据 , 输入 
模型 进行 结果 测试 。 这 里 所 说 的 测试 并 不 是 要 判断 出 其 类 别 的 归属 , 而 是 需要 能 够 产生 一 个 符 
合 要 求 的 数据 ， 代 码 如 下 : 


【程序 20-4】 
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具体 结果 如 图 20-4 所 示 。 


Res Shape: 
(1, 5) 


Res: 
[[ 0.08930787 0.09087262 0.43527788 0.16011299 0.22442868]] 


图 20-4 flower 中 下 载 下 的 数据 集 


20.1.3 训练 Slim 创建 的 卷 积 网 络 


对 于 已 经 创建 好 的 模型 ,可 以 使 用 对 应 的 数据 集 对 其 进行 训练 。 对 于 模型 的 训练 来 说 , 其 
最 重要 的 还 是 数据 的 处 理 ， 在 生成 的 dataset 文件 中 将 图 像 文 件 依次 取出 ， 以 后 对 图 片 数据 进 
行 重 构 并 且 重 新 按 批 量 生成 数据 集 。 有 具体 如 下 : 





而 具体 模型 的 全 部 训练 代码 如 下 : 
【程序 20-5】 
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这 里 使 用 了 Slim 传统 的 格式 对 数据 模型 进行 训练 ， 一 共 训练 了 100 次 ， 结 果 如 图 20-5 所 示 。 
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INFO:tensorflow:global step 94: loss = 1.7798 (3. 04 sec/step) 
INFO:tensorflow:global step 95: loss = 1.6236 (3.09 sec/step) 
INFO:tensorflow:global step 96: loss = 1.7486 (3.02 sec/step) 
INFO:tensorflow:global step 97: loss = 1.5298 (3. 02 sec/step) 
INFO:tensorflow:global step 98: loss = 1.5923 (3.00 sec/step) 
INFO:tensorflow:global step 99: loss = 1.7173 (2.98 sec/step) 
INFO:tensorflow:global step 100: loss = 1.5923 (3.02 sec/step) 
INFO:tensorflow:Stopping Training. 

INFO:tensorflow:Finished training! Saving model to disk. 


图 20-5 训练 结果 


2U0.2 使 用 Slim 预 训练 模型 进行 Finetuning 


本 节 主 要 介绍 如 何 使 用 Slim 已 有 的 模型 以 及 预 训 练 的 数据 进行 Finetuning。 在 深度 学 习 
中 , 这 种 使 用 别人 已 经 设计 好 的 模型 和 已 经 过 预 训练 的 数据 参数 , 使 用 别人 现成 的 东西 为 自己 
的 利益 服务 的 行为 被 称 为 “Finetuning”。 

对 于 神经 网 络 模型 来 说 ， 在 别人 已 有 的 训练 权重 上 进行 二 次 开发 往往 能 够 取得 更 好 的 成 
绩 ， 笔 者 也 鼓励 读者 在 实际 工作 中 使 用 Finetuning 去 解决 问题 。 


20.2.1 Inception-ResNet-v2 模型 简介 


Inception-ResNet-v2( 图 20-6) 是 TensorFlow 最 新 推出 的 ， 能 够 在 ILSVRC 图 像 分 类 基准 上 
取得 顶尖 准确 率 的 卷 积 神经 网 络 。Inception-ResNet-v2 是 早期 发 布 的 Inception-V3 网 络 模型 的 变 体 ， 
这 个 模型 借鉴 了 ResNet 模型 的 思路 ， 额 外 对 层次 结构 和 功能 做 了 添加 和 少量 的 修改 。 


Inception Resnet V2 Network 








20-6 ”Inception-ResNet-v2 网 络 模型 


Inception-ResNet-v2 模型 最 精 茵 的 地 方 是 使 用 了 大 量 残 差 连接 ， 即 在 各 个 区 块 中 使 用 了 直 
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连通 道 , 从 而 允许 梯度 变换 能 够 直接 在 层级 之 间 传 递 , 这 个 看 起 来 不 多 的 修改 能 成 功 地 训练 更 
深 的 神经 网 络 从 而 产生 更 好 的 性 能 。 这 也 使 得 Inception 块 的 极度 简单 化 成 为 可 能 。 
20.2.2 ”使 用 Inception-ResNet-v2 预 训练 模型 参数 


如 果 需 要 使 用 Slim 中 预先 训练 好 的 模型 , 第 一 步 的 工作 就 是 编写 和 模型 一 样 的 Slim 构造 
的 程序 。 读 者 可 以 从 以 下 网 址 下 载 相应 的 程序 : 


部 分 截图 参考 图 20-7。 


inception_resne.. | 征 
1 with tf.variable_scope(scope, 'InceptionResnetV2', [inputs], reuse=reuse): vw 埃 inception resnet.v2py 
112 with slim.arg_scope([slim.batch_norm, slim. dropout] ， 和 sim 
3 is_training=is_training): 
114 with slim.arg_scope([slim.conv2d, slim.max_pool2d, slim.avg_pool2d], 导 
15 stride=1, padding='SAME"): 一 
116 于 
117 #149 x 149 X 32 -| 
118 net = slim.conv2d(inputs, 32, 3, stride=2, padding="VALID', 刁 
119 scope='Conv2d_1a_3x3') | 
120 end_points['Conv2d_1a_3x3'] = net 
121 #147 x 147 x 32 
122 net = slim.conv2d(net, 32, 3, padding="VALID', | 
123 scope='Conv2d_2a_3x3') 
124 end_points['Conv2d_2a_3x3'] = net 
125 #147 x 147 x 64 
126 met ~ slim.conv2d(net, 64, 3, scope='Conv2d_2b_3x3") 
127 end_points['Conv2d_2b_3x3'] ~ met 
128 #7]3X 73x 64 如 
129 net ~ slim.max_pool2d(net, 3, stride-2, agdings VALID'， 
130 scope- "MaxPool_3a_3x37) = 
131 end_points[ "Maxpool_3a_3x3"] ~ net El 
132 #73x 73x 80 | 
133 net = Slim,conv2d(net，80，1，padding- "VALID ， | 
134 scope="Conv2d_3b_1x1') 








图 20-7 ”Inception-ResNet-v2 预 编写 程序 


在 读者 下 载 好 预 编写 的 Inception-ResNet-v2 模型 代码 后 , 可 以 选择 对 模型 进行 训练 ,也 可 
以 使 用 预 下 载 好 的 模型 参数 进行 训练 。 

在 这 里 笔者 使 用 预先 下 载 好 的 训练 参数 ， 读 者 可 以 从 下 列 地 址 下 载 : 
http://download.tensorflow.org/models/inception resnet v2 2016 08 30.tar.gz 

这 是 在 TensorFlow 释放 出 Inception-ResNet-v2 模型 后 同时 放出 的 、 训 练 好 的 代码 。 

1. 第 一 步 : 载 入 预 训练 模型 

对 于 载 入 预 训 练 模型 的 使 用 , 最 重要 的 是 两 个 方面 , 一 是 载 入 模型 到 当前 的 对 话 之 中 , 二 


是 根据 对 应 的 参数 将 计算 好 的 权重 值 载 入 到 训练 模型 中 。 
Slim 提供 专用 的 方法 处 理 这 两 个 问题 ， 具 体 代码 如 下 : 


【 第 20 章 Slim 使 用 进 阶 








首先 model path 提供 了 一 个 获取 存档 文件 的 地 址 ， 两 个 参数 : 
inception_resnet_v2_2016_08_30.ckpt 是 模型 下 载 的 存档 文件 , 而 checkpoints_dir 是 存档 文件 存 
储 地 址 ， 这 里 请 读者 注意 函数 参数 的 顺序 。 

其 次 是 对 于 模型 参数 的 获取 ，'InceptionResnetV2' 是 模型 对 应 的 参数 空间 名 称 ， 可 以 用 其 
提取 各 个 参数 并 将 其 分 配 到 模型 之 中 。 

而 具体 的 使 用 如 下 : 





slim.assign_from_checkpoint_fn 是 模型 中 执行 参数 分 配 的 函数 ， 其 作用 是 将 获取 的 参数 以 
及 参数 所 对 应 的 权重 分 配 到 模型 之 中 。 
完整 代码 如 下 所 示 。 


【程序 20-6】 
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在 程序 20-6 中 随机 生成 了 一 个 四 维 数据 ， 用 以 代替 图 片 参 数 进行 测试 ， 之 后 在 模型 对 应 
的 参数 空间 下 导入 模型 并 计算 预测 值 。 此 时 需要 注意 的 是 , 模型 中 的 数据 并 没有 被 格式 化 或 者 
注入 相应 的 参数 。 有 兴趣 的 读者 可 以 运行 并 测试 。 

之 后 的 init_ fo 对 模型 进行 数据 重 载 操 作 ， 需 要 注意 的 是 (又 一 次 ) ， 所 有 的 重 载 操作 需 
要 在 一 个 对 话 中 完成 。 

2. 第 二 步 : 不 动 分 类 多 少 的 情况 下 尝试 训练 自己 的 模型 

在 载 入 模型 和 模型 参数 后 ， 下 一 步 就 是 使 用 预 训练 分 辨 自己 的 数据 集 ， 如 图 20-8 所 示 。 


荔 这 里 使 用 的 数据 集 是 上 一 章 的 flower 分 类 数据 集 。 


pe, 





图 20-8 使 用 的 是 flower 数据 集 


其 代码 如 下 : 
【程序 20-7】 
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全 部 代码 如 上 所 示 ， 可 以 看 到 代码 分 成 2 个 部 分 ， 首 先是 创建 数据 读 取 部 分 ， 将 已 有 的 
TFRecords 格式 的 数据 转化 成 Slim 需要 的 数据 ， 之 后 载 入 模型 和 模型 权重 ， 定 义 损失 函数 最 
终 计 算 并 显示 (图 20-9) 。 


INFO:tensorflow:global step 1: loss = 8.1342 (16.48 sec/step) 
INFO:tensorflow:global step 2: loss = 8.1336 (11.04 sec/step) 
INFO:tensorflow:global step 3: loss = 8.1335 (10.94 sec/step) 
INFO:tensorflow:global step 4: loss = 8.1336 (10.83 sec/step)| 
INFO:tensorflow:global step 5: loss = 8.1339 (11.04 sec/step) 
INFO:tensorflow:global step 6: loss = 8.1336 (10.90 sec/step) 
INFO:tensorflow:global step 7: loss = 8.1337 (11.10 sec/step) 
INFO:tensorflow:global step 8: loss = 8.1337 (10.89 sec/step) 
INFO:tensorflow:global step 9: loss = 8.1337 (10.79 sec/step) 
INFO:tensorflow:global step 10: loss = 8.1340 (11.00 sec/step) 
INFO:tensorflow:Stopping Training. 


图 20-9 输出 的 损失 函数 


3. 第 三 步 : 修改 最 终 输出 类 别 从 而 训练 自己 的 模型 


可 能 有 读者 注意 到 了 ， 此 时 模型 的 训练 是 将 最 终结 果 生 成 转化 成 一 个 [-1,1001] 大 小 的 矩 
阵 ， 而 具体 分 类 只 占 到 矩阵 的 5 个 位 置 ， 这 样 明显 地 占据 了 过 多 空间 。 因 此 ,为 了 解决 这 个 问 
题 ， 可 以 对 模型 进行 观察 。 

Inception-ResNet-v2 代码 中 ， 最 终 的 结果 是 生成 一 个 全 连接 函数 ， 因 此 可 以 在 全 连接 函数 
后 重新 生成 一 个 具有 5 个 输出 值 大 小 的 函数 ， 代 码 段 如 下 : 





其 他 训练 方式 与 上 一 步 相同 。 整 体 代码 如 下 : 
【程序 20-8】 
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具体 结果 请 读者 自己 测试 。 

4. 第 四 步 : 从 头 训练 自己 的 模型 

可 能 有 读者 想 要 对 自己 的 模型 进行 完整 的 从 头 训练 ， 那 么 也 是 可 以 的 。 其 代码 如 下 : 
【程序 20-9】 
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这 里 从 头 输入 对 应 的 数据 并 进行 计算 是 一 件 较为 费事 的 工作 ,但 是 由 于 模型 设计 得 比较 完 
善 ， 一 般 情 况 下 10 个 epoch 即 可 达到 数据 的 收敛 ， 具 体 请 读者 自行 尝试 。 


20.2.3 修改 Inception-ResNet-v2 预 训练 模型 输出 层级 


对 于 模型 的 使 用 , 有 时 候 需要 输出 不 同 层次 结果 或 者 在 不 同 的 层次 上 接 入 满足 任务 需求 的 
层次 ， 这 就 需要 对 模型 进行 修改 。 

在 这 里 笔者 谈论 的 是 使 用 预 训练 参数 的 模型 ,如 果 有 读者 希望 完全 使 用 自己 的 模型 去 完整 
训练 一 个 网 络 模型 。 对 于 这 个 想法 ， 笔 者 不 鼓励 也 不 反对 ， 但 是 需要 提示 的 是 ， 从 头 完全 训练 
一 个 网 络 一 般 并 不 能 达到 超越 在 预 训练 模型 上 继续 训练 所 达到 的 目标 。 

1. 第 一 步 : 修改 载 入 的 预 训练 参数 


对 于 使 用 预 训练 参数 修改 模型 输出 不 同 的 层次 结果 ， 主 要 涉及 两 个 方面 ， 首 先是 已 有 的 
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ckpt 存档 文件 中 参数 的 载 入 问题 。 对 于 这 个 可 以 使 用 Slim 提供 的 专用 方法 在 层次 上 修改 载 入 
的 对 应 参数 ， 具 体 代码 段 如 下 : 


在 这 个 代码 段 中 , 先 设 定 了 需要 去 除 的 层次 名 , 之 后 在 参数 列表 中 对 其 进行 一 个 判定 ,去 
除 不 需要 的 参数 名 , 之 后 init-fn 对 其 进行 重新 设 定 。 需 要 注意 的 是 , 编码 的 时 候 需 要 传 入 一 个 
对 话 ， 这 个 作为 传递 参数 构建 了 与 运行 程序 所 对 应 的 对 话 。 

完整 代码 如 下 : 








【 第 20 章 Slim 使 用 进 B 





可 能 有 读者 运行 了 上 述 代码 , 但 是 很 遗憾 , 代码 会 报错 , 不 能 正常 运行 , 如 图 20-10 所 示 


FailedPreconditionError (see above for traceback): Attempting to use uninitialized value InceptionResnetV2/Logits/Logits/biases 
[[Node: InceptionResnetY2/Logits/Logits/biases/read = Identity[T=DT_FLOAT, _class=["loc:@InceptionResnetV2/Logits/Logits/biases”], 


图 20-10 ”提示 错误 


究 其 原因 发 现 ， 在 模型 参数 的 载 入 过 程 中 InceptionResnetV2/Logits 参数 是 被 取消 载 入 的 ， 
因此 在 模型 进行 计算 时 这 部 分 参数 是 被 提示 没有 进行 格式 化 。 


解决 办 法 有 2 个 : 分 别 在 数据 载 入 前 进行 一 次 格式 化 操作 ， 或 者 对 模型 进行 修改 ， 吻 除 不 
需要 载 入 的 层 。 因 为 需要 对 模型 的 输出 结果 进行 修改 ,所 以 在 这 里 选择 第 二 个 方案 ， 对 数据 模 
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型 的 层次 进行 修改 。 
2. 第 二 步 : 修改 模型 层次 
这 里 最 重要 的 就 是 去 掉 设 定 的 模型 的 计算 层次 ， 如 图 20-11 所 示 。 


with tf-variable_scope("Logits') 


end_points['PrePool'] = net 

net = slim.avg_pool2d(net, net. Je()[1:3], padding="VALID', 
AR 

net = slim.flatten(net) 


找到 这 个 ， 删 
,Net = slim.dropout(net，dropout_keep_prob，is_training=is Paing， 
修改 返 scope= "Dropout ) 各 
疆 
器 结 采 d_points[ 'PreLogitsFlatten'] = ned 


en 
logits = slim.fully_connected(net, num classes, activation fn=None, 
scope= LogitS ) 
Id_points[ ‘Logits'] = logits 
oints['Predictions'] = tf.nn.softmax(logits, name="Predictions') 


return logits, end_points 
default_image_size = 299 


图 20-11 修改 层次 的 方法 


这 里 有 2 点 需要 注意 ， 第 一 个 就 是 找到 对 应 层次 名 称 的 那个 层 ， 将 其 整体 删除 ， 因 为 所 删 


除 的 是 最 后 一 层 , 因此 在 返回 计算 值 时 要 将 返回 值 改 成 对 应 的 上 一 层 的 名 称 , 这 里 笔者 用 
的 是 “net”。 





而 AuxLogits 层 的 删除 方法 与 之 类 似 ， 找 到 对 应 的 层 名 称 将 其 删除 即 可 。 
【程序 20-10】 
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完整 代码 如 程序 程序 20-10 所 示 。 打 印 结果 如 下 : 
一 


这 里 显示 的 是 在 一 个 没有 一 个 具体 输出 结果 的 模型 上 的 最 终 显示 梯度 ,读者 可 以 根据 需要 
在 其 上 连接 不 同 的 模型 使 用 即 可 。 


20.3 本 章 小 结 


本 章 和 上 一 章 的 目的 就 是 教会 读者 Slim 的 使 用 方法 以 及 使 用 提供 的 模型 进行 各 种 
Finetuning 操作 。 这 是 一 个 非常 好 的 方法 ， 笔 者 也 极度 建议 读者 在 已 训练 模型 的 基础 上 进行 各 
种 Finetuning 操作 。 

到 目前 为 止 ，TensorFlow 的 基本 概念 暂且 告 一 段落 ， 后 面 的 章节 ， 笔 者 想 带领 读者 使 用 
所 学 到 的 知识 实现 各 种 有 趣 的 想法 和 程序 设计 。 通 过 很 多 实例 的 研究 和 大 量 的 练习 可 以 教会 读 
者 使 用 TensorFlow 和 卷 积 神经 网 络 应 付 各 种 困难 和 问题 。 
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- 


对 于 计算 机 视觉 的 具体 应 用 一 般 分 成 三 个 主要 部 分 : 

@ 图 像 分 类 

@ ”物体 检测 

@ ”图像 分 割 

图 像 分 割 就 是 把 图 像 分 成 若干 个 特定 的 、 具 有 独特 性 质 的 区 域 , 并 提出 感 兴趣 目标 的 技术 
和 过 程 。 它 是 由 图 像 处 理 到 图 像 分 析 的 关键 步骤 。 现 有 的 图 像 分 割 方法 主要 分 为 以 下 几 类 ， 

@ 基于 阅 值 的 分 割 方法 
基于 区 域 的 分 割 方法 
基于 边缘 的 分 割 方法 
基于 特定 理论 的 分 割 方法 

1998 年 以 来 ， 研 究 人 员 不 断 改 进 原 有 的 图 像 分 割 方法 ， 并 把 其 他 学 科 的 一 些 新 理论 和 新 
方法 用 于 图 像 分 割 , 提出 了 不 少 新 的 分 割 方法 。 图 像 分 割 后 提取 出 的 目标 可 以 用 于 图 像 语义 识 
别 、 图 像 搜索 等 领域 。 

本 章 将 介绍 使 用 TensorFlow 构建 的 全 卷 积 神经 网 络 在 图 像 分 割 上 的 入 门 应 用 。 


全 卷 积 神经 网 络 进行 图 像 分 割 的 理论 基础 


卷 积 神经 网 络 自 从 2012 年 获得 图 像 识别 大 赛 冠 军 以 来 ， 在 计算 机 视觉 方面 的 应 用 取得 了 
巨大 的 成 就 和 广泛 的 应 用 。 

全 卷 积 神经 网 络 通过 模拟 人 工 神经 网 络 的 工作 特点 ,能够 通过 其 特定 的 多 层次 模型 自动 学 
习 目 标 对 象 的 特征 , 并且 由 于 模型 层次 的 不 同 , 在 深度 不 同 的 模型 上 学 习 到 的 特征 也 不 尽 相同 。 

浅 层 次 的 特征 感知 域 较 小 ,学 习 到 较为 通用 的 特征 ， 而 较 深 的 卷 积 层 有 较 大 的 感知 域 ， 能 
够 学 到 较为 抽象 的 、 更 加 细节 化 的 特征 。 这 些 具体 抽象 结合 共同 作用 于 卷 积 神经 网 络 模型 ， 使 
之 对 物体 的 类 别 、 大 小 、 颜 色 等 具有 更 好 的 判定 和 识别 能 
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抽象 出 不 同 层 次 的 特征 对 图 像 分 类 具有 很 好 的 作用 。 可 以 根据 特征 的 不 同 将 其 进行 分 类 ， 
从 而 判定 一 幅 图 像 中 包含 什么 类 别 的 物体 ,但 是 由 于 传统 的 卷 积 神经 网 络 在 最 终 分 类 层 使 用 了 
全 连接 层 , 因此 在 最 终 特征 显示 的 时 候 会 丢失 物体 的 细节 和 空间 特征 ， 且 不 能 据 此 判断 出 物体 
的 轮廓 ， 因 此 想 通过 传统 的 卷 积 神经 网 络 做 到 对 图 像 的 精确 分 割 就 有 一 定 难度 。 

针对 这 个 问题 , 2015 年 UC Berkeley 的 Jonathan Long 等 人 提出 了 全 卷 积 神经 网 络 (FCN) 
用 于 对 图 像 进行 分 割 。FCN 尝试 多 种 方法 从 已 经 经 过 卷 积 计算 的 图 像 ， 即 对 被 回复 图 像 的 每 
个 像素 类 别 进行 判定 ， 从 而 判断 出 像素 构成 的 图 像 的 分 类 ， 如 图 21-1 所 示 。 
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图 21-1 全 连接 层 的 卷 积 神经 网 络 


21.1.1 全 连接 层 和 全 卷 积 层 

使 用 卷 积 神经 网 络 进行 图 像 分 割 的 关键 是 使 得 模型 中 的 全 连接 层 由 卷 积 层 替 代 , 这 样 可 以 
避免 在 进行 分 类 的 过 程 中 丢失 图 像 的 空间 信息 。 

全 连接 层 和 卷 积 层 唯一 的 不 同 点 就 是 , 卷 积 层 中 的 节点 只 与 上 一 层 中 的 局 部 位 置 相连 , 并 
且 在 卷 积 过 程 中 参数 共享 。 但 是 其 相同 点 在 于 无 论 卷 积 层 还 是 全 连接 层 , 在 计算 过 程 中 都 是 采 
用 矩阵 点 积 的 方式 将 其 进行 统计 计算 , 因此 可 以 认为 其 计算 函数 在 形式 上 一 样 , 可 将 其 相互 替 


换 ， 如 图 21-2 所 示 。 
“tabby cat” 
] i 
1 


convolutionalization 





tabby cat heatmap 











图 21-2 全 卷 积 层 蔡 代 全 连接 层 
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对 于 任何 一 个 全 连接 层 ， 都 存在 一 个 卷 积 层 可 以 将 其 完整 替换 。 假 设 一 个 输出 为 4096 的 
全 连接 层 ， 输 入 的 数据 大 小 为 [7,7,512] 形 式 ， 这 个 全 连接 层 可 视 为 一 个 卷 积 核 大 小 为 [7.7]，pad 
为 0， 步 进 为 1， 输 出 为 4096 的 卷 积 层 。 

此 时 就 可 将 滤波 器 的 尺寸 设置 为 与 输入 数据 体 的 尺寸 大 小 一 致 ,而 输出 的 结果 则 与 初始 的 
全 连接 层 一 样 。 经 过 全 卷 积 化 的 全 连接 层 可 以 保存 图 像 位 置 空间 上 的 信息 , 并 且 全 连接 层 的 权 
重 被 重新 塑造 成 卷 积 层 的 滤波 器 ,节省 了 大 量 数据 保存 和 计算 量 。 卷 积 在 一 张 更 大 的 输入 图 片 
上 滑动 , 将 一 个 非常 复杂 的 全 连接 计算 转化 为 若干 个 小 的 卷 积 计算 , 这 样 可 以 极 大 地 简化 计算 
里 。 

在 传统 的 CNN 结构 中 ， 前 5 层 是 卷 积 层 ， 第 6 层 和 第 7 层 分 别 是 一 个 长 度 为 4096 的 一 
维 向 量 ， 第 8 层 是 长 度 为 1000 的 一 维 向 量 ， 分 别 对 应 1000 个 不 同类 别 的 概率 。 

现在 回忆 下 在 AlexNet 中 ， 卷 积 的 最 后 一 层 的 大 小 为 [7,7,512]， 而 其 后 紧 接 了 两 个 尺寸 为 
4096 的 全 连接 层 ， 而 最 后 接 了 一 个 有 1000 个 节点 的 全 连接 层 作 为 最 终 的 分 类 。 

全 卷 积 网 络 将 这 最 后 3 层 转换 为 卷 积 层 , 卷 积 核 的 大 小 (通道 数 、 宽 、 高 ) 分 别 为 (4096,1,1)、 
(4096,1,1)、(1000,1,1)。 看 上 去 数字 上 并 没有 什么 差别 ， 但 是 卷 积 跟 全 连接 是 不 一 样 的 概念 和 
计算 过 程 ， 使 用 的 是 之 前 CNN 已 经 训练 好 的 权 值 和 偏 置 ， 它 们 不 一 样 处 在 于 权 值 和 偏 置 是 有 
自己 的 范围 , 属于 自己 的 一 个 卷 积 核 。 因此 全 卷 积 网 络 中 所 有 的 层 都 是 卷 积 层 ， 故 称 为 全 卷 积 
网 络 。 

图 21-3 是 一 个 全 卷 积 层 ， 第 一 层 pooling 后 为 55X55， 第 二 层 pooling 后 图 像 大 小 为 
27X27， 第 五 层 pooling 后 的 图 像 大 小 为 13X 13。 














convolution 
H4xW4 H/8 x Wi8 H/16 x W/16 H/32 x W/32 





图 21-3 全 卷 积 层 蔡 代 全 连接 层 


而 全 卷 积 网 络 输入 的 图 像 是 H*W 大 小 ， 第 一 层 pooling 后 变 为 原 图 大 小 的 1/4， 第 二 层 变 
为 原 图 大 小 的 1/8， 第 五 层 变 为 原 图 大 小 的 1/116， 第 八 层 变 为 原 图 大 小 的 132。 这 样 经 过 多 次 
卷 积 核 池 化 后 , 得 到 的 图 像 越 来 越 小 ,分辨 率 越 来 越 低 。 其 中 图 像 到 最 后 第 八 层 时 是 最 小 的 一 
层 ， 其 所 产生 的 图 叫 heatmap 图 ， 即 热 图 。 

热 图 是 通过 全 卷 积 模型 获取 的 最 重要 的 高 维特 征 图 , 这 个 图 包含 着 原始 图 片 被 提取 后 保留 
的 所 有 信息 , 之 后 则 需要 将 这 个 包含 着 高 维特 征 的 热 图 通过 某 种 方式 将 其 复原 , 而 这 种 方法 被 
称 为 upsampling《〈 反 卷 积 ) ， 将 图 片 放大 到 原 图 的 大 小 。 

图 21-4 所 示 最 右 侧 是 1000 张 heatmap 图 经 过 上 采样 获得 的 图 片 ,描述 了 图 片 物体 的 形状 。 
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convolution 


2 总 | 一 一 苹 





H4xW4 HBxWB Wi6x W16 x Hx W 

+t upsampling 个 
conv, pool, pixelwise 
nonlinearity output + loss 


图 214 全 卷 积 获取 的 图 像 


简 述 一 下 这 个 过 程 。 首 先是 获取 输出 1000 像素 张 ( 因 为 分 类 有 1000 种 )， 之 后 对 每 个 像 
素 进 行 upsampling 并 分 类 预测 ， 之 后 逐 帧 地 求 这 1000 张 图 片 在 该 像素 位 置 的 最 大 值 描述 ， 并 
将 这 个 描述 作为 该 像素 的 分 类 。 


21.1.2 反 卷 积 (upsampling) 计算 


反 卷 积 的 过 程 被 称 为 upsampling。 

在 正常 的 卷 积 计算 中 ， 卷 积 化 以 及 池 化 过 程 缩小 了 图 片 特征 图 的 大 小 ， 而 在 图 像 分 割 中 ， 
需要 输出 大 小 与 输入 图 像 一 致 的 图 片 ， 因 此 需要 对 获取 的 小 样 特征 图 进行 上 采样 。TensorFlow 
中 上 采样 的 代码 如 下 : 





其 中 value 是 输入 的 数据 值 ， 而 filter 是 卷 积 核 ，output_shape 是 数据 的 输出 维度 ，stride 
是 每 次 的 步 进 距离 。 

具体 的 理论 推导 请 读者 参考 前 面 所 讲述 的 卷 积 的 反 向 传递 过 程 , 实际 上 也 是 , 在 反 卷 积 的 
过 程 中 就 是 将 输入 的 图 片 矩阵 进行 一 次 使 用 给 定 卷 积 核 的 反 向 传递 的 过 程 。 

但 是 从 实际 工作 来 看 , 虽然 反 卷 积 后 能 够 实现 图 像 分 割 , 但 得 到 的 结果 一 般 比 较 粗糙 ， 例 
如 当 有 1/32 大 小 的 heatMap、1/16 的 featureMap 和 1/8 的 featureMap 时 ， 无 论 是 采用 哪 种 特 
征 图 作为 反 卷 积 的 输入 图 进行 upsampling 操作 后 ， 限 于 精度 问题 不 能 够 很 好 地 还 原 图 中 的 特 
征 ， 如 图 21-5 所 示 。 因 此 在 实际 中 往往 综合 多 个 卷 积 和 特征 共同 合 加 。 
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图 21-5 不 同 卷 积 层 获取 的 图 像 











必 却 更 为 细节 的 描述 就 是 pool5 获得 的 反 卷 积 结果 与 poo4 层 的 输出 结果 进行 数学 矩阵 相 加 后 ， 
共同 构成 一 个 大 小 不 变 的 新 特征 图 作为 反 卷 积 的 输入 图 进行 反 卷 积 计算 ,之 后 的 计算 结果 
再 与 pool 的 输出 图 进行 矩阵 垣 加 后 再 计算 反 卷 积 。 而 不 同 的 结构 产生 的 结果 如 图 21-6 
所 示 。 





有 








FCN-32s FCN-16s FCN-8s Ground truth 





图 21-6 不 同 卷 积 层 获 取 的 图 像 


可 以 看 到 , 相对 于 独立 输入 图 计算 的 反 卷 积 结果 , 综合 化 的 计算 结果 对 图 像 分 割 更 显得 准 
确 而 真实 。 

与 传统 CNN 在 卷 积 层 之 后 使 用 全 连接 层 得 到 固定 长 度 的 特征 向 量 进行 分 类 不 同 ， 全 卷 积 
网 络 可 以 接受 任意 尺寸 的 输入 图 像 , 然后 通过 反 卷 积 层 对 最 后 一 个 卷 积 层 的 heatmap 进行 上 采 
样 ， 使 它 恢复 到 输入 图 像 相 同 的 尺寸 从 而 可 以 对 每 个 像素 都 产生 了 一 个 预测 ， 同 时 保留 了 原 
始 输入 图 像 中 的 空间 信息 , 最 后 在 与 输入 图 等 大 小 的 特征 图 上 对 每 个 像素 进行 分 类 , 相当 于 每 
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个 像素 对 应 一 个 训练 样本 。 


全 卷 积 神经 网 络 进行 图 像 分 割 的 分 步 流 程 
与 编程 基础 


对 于 使 用 全 卷 积 网 络 进行 图 像 分 割 的 过 程 在 前 面 已 经 有 了 介绍 。 首 先是 获取 输出 1000 像 
素 张 〈 因 为 分 类 有 1000 种 ) ， 之 后 对 每 个 像素 进行 upsampling 并 分 类 预测 ， 之 后 逐 帧 地 求 这 
1000 张 图 片 在 该 像素 位 置 的 最 大 值 描述 ， 并 将 这 个 描述 作为 该 像素 的 分 类 ， 如 图 21-7 所 示 。 


forward /inference 


backward /learning 





图 21-7 反 卷 积 流程 


但 是 事情 往往 是 听 起 来 容易 做 起 来 难 , 看 起 来 较为 简单 的 过 程 并 不 是 那么 容易 实现 , 本 节 
将 带领 读者 分 步 对 这 个 流程 加 以 练习 并 编程 实现 这 些 内 容 。 





21.2.1 使 用 VGG16 进行 图 像 识 别 


前 面 已 经 说 了 , 使 用 全 卷 积 网 络 进行 图 像 分 割 的 第 一 步 就 是 使 用 全 卷 积 神经 网 络 获取 图 像 
的 识别 信息 。TensorFlow 中 的 Slim 库 包 自 带 了 相应 的 使 用 全 卷 积 网 络 的 模型 ， 这 里 使 用 的 是 
VGG16 模型 。 其 核心 代码 如 下 : 


net = layers lib.repeat( 
inputs, 2, layers.conv2d, 64, [3, 3], scope='convl1') 
net = layers lib.max pool2d(net, [2, 2], scope='pool11') 
net = layers_lib.repeat (net, 2, layers.conv2d, 128, [3, 3], scope='conv2') 
net = layers lib.max pool2d(net, [2, 2], scope='poo12') 
net = layers_ lib.repeat (net, 3, layers.conv2d, 256, [3, 3], scope='conv3') 
net = layers lib.max pool2d(net, [2, 2], scope='poo13') 
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可 以 看 到 代码 段 中 , 这 里 没有 使 用 全 连接 层 , 最 后 三 层 用 于 分 类 的 部 分 也 是 采用 了 卷 积 层 
作为 蔡 代 ， 最 后 输出 也 是 按 输 入 的 分 类 类 别 数 进行 最 终 的 计算 并 输出 。 

模型 已 经 确定 ， 对 于 另 一 个 关键 点 ， 即 模型 的 训练 权重 部 分 ,读者 可 以 在 下 面 网 址 直接 下 
载 ， 或 者 从 本 书 中 提供 的 代码 库 中 下 载 ， 地 址 如 下 : 


这 里 是 TensorFlow 宣 方 提供 的 、 供 已 训练 模型 使 用 的 权重 ， 其 训练 都 是 通过 imagenet 提 
供 的 1000 类 图 像 训练 ， 具 有 很 高 的 准确 度 。 


趣 建议 读者 使 用 已 训练 好 的 模型 进行 第 一 步 图 像 的 分 辨 。 


因为 在 前 面 的 Slim 高 级 使 用 中 已 经 详细 介绍 过 VGG16 的 恢复 和 计算 方法 ， 这 里 不 再 详 
细 介 绍 ， 完 整 代码 如 下 : 


【程序 21-1】 
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最 终 打 印 如 图 21-8 所 示 。 
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Probability 0.87 => [苹果 ] 
Probability 0.05 => [石榴 ] 
Probability 0.02 => [蜡烛 ] 
Probability 0.01 => [钉子 ] 
Probability 0.01 => [青椒 黄 椒 红 椒 ] 





图 21-8 对 于 苹果 的 辨识 


可 以 看 到 ，VGG16 较 好 地 辨识 出 图 片 中 是 一 个 苹果 ， 其 概率 为 0.87， 而 其 他 物品 的 概率 
比 起 苹果 则 小 得 多 ， 可 以 被 忽略 不 计 。 


21.2.2 上 采样 Cupsampling) 详解 


对 物体 完成 归 类 判定 后 ， 第 二 步 就 是 对 生成 的 模型 结果 进行 反 卷 积 化 处 理 。 

反 卷 积 也 称 为 上 采样 (upsampling) ， 这 是 一 个 专业 术语 ， 涉 及 很 多 方面 ， 更 确切 地 说 这 
是 一 种 从 信号 采样 中 传播 到 卷 积 神经 网 络 中 的 一 种 图 片 回 复方 法 。 从 定义 上 来 看 ， 香 农 上 采样 
的 定义 如 下 : 

“上 采样 的 思路 就 是 用 更 多 的 样本 (又 称 为 插值 或 是 上 采样 ) 或 者 更 少 的 样本 (又 称 为 抽 
样 或 是 降 采 样 ) 来 重建 连续 的 信号 。” 

采样 更 为 通俗 易 懂 的 语句 进行 表述 就 是 对 于 未 知 的 数据 ,可 以 根据 已 有 的 数据 点 去 对 其 进 
行 估计 ， 其 后 根据 重新 计算 获得 的 信号 采样 点 作为 新 的 样本 点 。 通 过 上 一 小 节 中 VGG16 对 模 
型 的 计算 提取 出 的 经 过 多 重 卷 积 化 的 预测 图 作为 上 采样 的 输入 值 ,通过 对 其 进行 上 采样 或 者 反 
卷 积 ， 则 可 以 从 中 重建 样本 实现 上 采样 。 





| “香农 采样 定律 ， 只 有 采样 频率 不 小 于 模拟 信号 频谱 中 最 高 频率 的 2 倍 时 , 信号 才能 不 失 
真 地 还 原 。” 换 句 话说 只 有 重建 的 连续 信号 在 一 定 条 件 限制 下 才能 够 重建 原始 图 像 。 











在 开始 正式 介绍 上 采样 之 前 ， 笔 者 先 举 一 个 例子 。 对 于 任意 给 定 的 一 个 图 像 ， 如 果 简 单 地 
对 其 进行 反 卷 积 处 理 ， 能 否 获得 原始 的 图 像 呢 ? 
首先 创建 一 个 [3,3] 大 小 的 黑白 图 案 ， 代 码 如 下 : 


【程序 21-2】 
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io.show() 
这 里 无 须 去 追究 实现 的 细节 ， 其 生成 的 图 像 如 图 21-9 所 示 。 
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图 21-9 生成 的 黑白 图 案 


此 时 如 果 将 这 个 图 像 作 为 反 卷 积 的 原始 图 像 进行 输入 ,要 求 其 生成 一 个 [8,9] 大 小 的 、 新 的 
图 案 ， 作 为 使 用 者 肯定 是 希望 新 生成 的 图 像 能 够 非常 接近 原始 的 图 像 ， 其 代码 如 下 : 


【程序 21-3】 
from numpy import ogrid, repeat, newaxis 
from skimage import io 
import numpy as np 
size = 3 
x, y = ogrid[:size, :size] 


img = repeat ((x + y)[..., newaxis], 3, 2) / 12. 
import tensorflow as tf 


img = tf.cast (img,tf.float32) # 对 数据 格式 进行 转化 uint8->float32 
img = tf.expand dims (img,0) # 扩 大 一 个 维度 


kernel = tf.random normal([5,5,3,3],dtype=tf.float32) # 随 机 生成 一 个 卷 积 核 
res = tf.nn.conv2d transpose (img,kernel, [1,9,9,3],[1,1,1,1],padding="VALID") 
# 使 用 反 卷 积 进行 处 理 


with tf.Session() as sess: 


img = sess.run(tf.squeeze (res)) # 使 用 图 进行 计算 ， 并 压缩 结果 


io.imshow (img/np.argmax (img), interpolation='none') # 显 示 压 缩 后 图 像 
io.show() 
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这 里 通过 随机 生成 一 个 卷 积 核 ， 使 用 TensorFlow 中 自 带 的 反 卷 积 进行 计算 ， 最 终生 成 一 
个 [9,9] 大 小 的 图 片 ， 其 结果 如 图 21-10 所 示 。 














1 2 3 4 5 6 7 


图 21-10 使 用 随机 卷 积 核 获 取 的 卷 积 图 (读者 生成 的 可 能 有 差异 ) 
这 两 个 图 像 从 外 形 上 完全 不 一 样 。 
究 其 原因 , 对 于 生成 的 卷 积 核 ,其 大 小 是 根据 相对 应 的 卷 积 生成 公式 进行 计算 , 基本 上 不 
会 存在 问题 。 而 卷 积 核 中 的 具体 权重 ,由 于 其 是 随机 生成 , 并且 其 在 反 卷 积 过 程 中 起 到 一 个 至 
关 重 要 的 作用 ， 因 此 可 以 确定 图 像 生成 的 成 功 与 否 是 由 卷 积 核 所 确定 。 








出 通俗 地 理解 反 卷 积 作用 中 的 卷 积 核 , 此 时 卷 积 核 相当 于 一 个 放大 镜 ,决定 原 有 的 数据 通过 | 
世人 和 何 种 方式 进行 放大 。 卷 积 与 反 卷 积 示意 如 图 21-11 所 示 。 











Convolution Deconvolution 


图 21-11 卷 积 与 反 卷 积 


21.2.3 一 种 常用 的 卷 积 核 一 一 双 线 插值 


在 上 一 小 节 中 通过 例子 说 明 , 对 于 反 卷 积 的 应 用 , 其 最 关键 的 问题 就 是 卷 积 核 的 创建 与 确 
定 。 在 信号 采集 中 ,一 个 最 常用 的 信号 放大 算法 就 是 双 线 性 插 法 。 在 上 文 也 提 到 ,对 于 任意 一 
个 反 卷 积 计 算 ， 卷 积 核 的 作用 就 相当 于 一 个 “放大 镜 ”， 它 用 来 决定 放大 的 形式 。 
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双 线 性 插值 ,又 称 为 双 线 性 内 插 。 在 数学 上 ， 双 线性 插值 是 有 两 个 变量 的 插值 函数 的 线性 
插值 扩展 ， 其 核心 思想 是 在 两 个 方向 分 别 进行 一 次 线性 插值 。 如 图 21-12 所 示 。 


SD 









;0Q»s 


图 21-12 双 线 性 插值 法 


我 们 以 一 个 例子 来 介绍 双 线 性 插值 原理 : 假如 我 们 想得到 未 知 函数 了 在 点 P=ftxy) 的 值 ， 
设 f 在 Q11=(x1y1)、Q12=(x1y2)、Q21=(x2y1)、Q22=(x2wy2) 四 个 点 的 值 。 
1. 第 一 步 : x 方向 的 线性 插值 








f(R)= Ef(0W) + /(Qn), whereR, =(x, 1) 


下 一 为 驳 


JR) = 之 


x; 








— f(Q,) + f (0;), whereR, =(x,y,) 
一 如 XA 


2. 第 二 步 : 做 完 x 方 向 的 插值 后 ，, 再 做 y 方 向 的 点 R1 和 R2 揪 值 , 由 R1 与 R2 计 算 P 点 


f(p)= TfR) + fR,) 
p21 JJ 一 六 

线性 插值 的 结果 与 插值 的 顺序 无 关 。 首 先进 行 y 方 向 的 插值 ,然后 进行 x 方向 的 插值 ， 所 
得 到 的 结果 是 一 样 的 。 但 双 线 性 插值 方法 并 不 是 线性 的 ， 首 先进 行 y 方 向 的 插值 ， 然 后 进行 x 


方向 的 插值 ， 它 与 首先 进行 x 方向 的 插值 ， 然 后 进行 y 方向 的 插值 ， 所 得 到 的 R1 与 R2 是 不 
一 样 的 。 


下 面 通过 代码 的 形式 将 其 进行 实现 。 
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这 里 通过 三 段 代 码 的 形式 完成 了 双 线 性 插值 的 描述 。 
【程序 21-4】 





number of classes, 
number of classes), dtype=np.float32) 
upsample kernel = upsample filt(filter size) 
for i in range (number of classes): 
weights[:, :, i, i] = upsample kernel 
return weights 


from numpy import ogrid, repeat, newaxis 

from skimage import io 

import numpy as np 

size = 3 

x, y = ogrid[:size, :sizel] 

img = repeat ((x + y)[..., newaxis], 3, 2) / 12. 


import tensorflow as tf 
img = tf.cast (img,tf.float32) # 对 数据 格式 进行 转化 uint8->float32 
img = tf.expand dims (img,0) # 扩 大 一 个 维度 


kernel = bilinear upsample weights(3,3) # 随 机 生成 一 个 卷 积 核 
res = tf.nn.conv2d transpose(img,kernel, [1,9,9,3], [1,3,3,1],padding="SAME") 
# 使 用 反 卷 积 进行 处 理 


with tf.Session() as sess: 


img = sess.run(tf.squeeze (res)) # 使 用 图 进行 计算 ， 并 压缩 结果 


io.imshow (img, interpolation='none') # 显 示 压 缩 后 图 像 
io.show() 


结果 如 图 21-13 所 示 。 





21-13 ” 双 线 性 插值 法 反 卷 积 结果 
可 以 看 到 , 使 用 双 线 性 插值 法 后 重 构 的 图 像 较 好 地 恢复 了 原 有 图 像 的 基本 情况 , 可 以 认为 


2 3 4 5 6 7 8 
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使 用 此 插值 法 对 图 像 进行 恢复 是 可 行 的 。 

当然 除 此 之 外 还 有 其 他 的 卷 积 核 生 成 方法 , 但 是 在 使 用 时 要 综合 考虑 生成 的 效果 与 计算 速 
度 。 在 本 书 采用 的 双 线 性 插值 法 进行 图 像 还 原 的 计算 中 ,其 效果 较 好 , 但 是 其 运算 需要 占用 大 
量 的 内 存 空间 和 耗费 巨 量 的 资源 , 因此 生成 的 图 片 规模 和 准确 度 都 会 有 一 定 影响 , 这 点 请 读者 
注意 。 


21.2.4 ”实战 一 一 使 用 VGG16 全 卷 积 网 络 进行 图 像 分 割 


介绍 完 上 面 的 内 容 ， 下 面 就 是 综合 利用 所 学 的 内 容 进行 图 像 分 割 。 
前 面 已 经 说 了 ， 对 于 图 像 分 割 来 说 ， 最 基本 和 最 简化 的 思想 就 是 利用 VGG16 对 图 像 进行 
特征 提取 ， 之 后 在 提取 的 特征 图 上 进行 反 卷 积 ， 从 而 获得 被 分 割 后 的 图 像 。 


1. 第 一 步 : 准备 工作 


首先 导入 双 线 性 插值 法 的 代码 ， 将 其 保存 在 upsampling 的 Python 文件 中 ， 并 将 计算 反 卷 
积 的 代码 以 函数 形式 进行 存储 ， 其 代码 如 下 : 


【程序 21-5】 
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2. 第 二 部 : 进行 图 像 分 割 
完整 代码 如 程序 21-6 所 示 〈 部 分 解释 在 程序 末尾 〉。 
【程序 21-6】 
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代码 段 虽然 比较 长 ， 但 是 通过 前 文 的 分 析 ， 其 难度 并 不 大 。 首 先是 通过 VGG16 获取 图 像 
的 特征 提取 ， 之 后 使 用 tfargmax 函数 对 输出 层 进行 逐个 比较 ， 取 得 不 同 层 同 一 位 置 中 最 大 的 
概率 所 对 应 的 值 。discrete_matshow 是 做 图 函数 ， 根 据 不 同 的 标签 和 深度 将 图 像 以 可 视 化 的 形 
式 作 出 。 最 终结 果 大 致 如 图 21-14 所 示 。 


Segmentation 


0 50 100 150 200 250 300 350 400 





21-14 图 像 分 割 结果 
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从 事实 上 看 ， 这 个 图 像 分 割 的 效果 并 不 好 ， 主 要 对 于 输出 的 卷 积 层 采用 的 是 : 


由 于 计算 量 过 大 ， 无 法 采用 推荐 的 琶 加 多 层 反 卷 积 结果 ， 从 而 未 达到 效果 最 优化 。 


2 1 .3 本章 小 结 


本 章 通 过 一 个 简单 的 方法 实现 了 图 像 分 割 , 主要 涉及 2 个 方面 的 内 容 , 被 提取 特征 的 反 卷 
积 化 计算 以 及 反 卷 积 核 的 使 用 。 

反 卷 积 的 作用 就 是 将 图 像 进 行 一 个 反 向 放大 ， 而 反 卷 积 核 则 相当 于 处 于 放大 的 那个 放大 
镜 ， 其 决定 着 原始 图 像 通过 何 种 特征 进行 放大 以 及 放大 的 比例 和 形式 。 

这 应 该 是 读者 在 本 书 中 第 一 次 接触 此 方面 的 内 容 , 也 是 非常 重要 的 内 容 , 这 也 是 图 像 处 理 
的 高 级 部 分 。 
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如 果 有 人 问 2016 年 最 火 的 深度 学 习 应 用 是 什么 ? 那么 十 有 八 九 你 听 到 的 回答 : “不 就 是 
GAN 吗 ”。 
“不 服 就 是 GAN? ”好 奇怪 的 说 法 。 实 际 上 GAN 是 对 抗 生 成 网 络 (Generative Adversarial 
Nets) 的 简称 。 早 在 2014 年 ，Christian Szegedy 等 人 在 ICLR 发 表 的 论文 中 提出 ， 如 果 通 过 对 
数据 集中 故意 添加 细微 的 干扰 所 形成 输入 样本 , 受 干 扰 之 后 的 输入 导致 模型 以 高 置信 和 度 给 出 了 
-个 错误 的 输出 。 即 很 多 情况 下 , 在 训练 集 的 不 同 子 集 上 训练 得 到 的 具有 不 同 结构 的 模型 都 会 
对 相同 的 对 抗 样本 实现 误 分 。 看 下 面 这 个 图 22-1 所 示 。 








图 22-1 噪音 扰动 的 图 像 


可 以 看 到 , 在 图 像 中 添加 一 定 噪音 ， 对 于 人 了 眼 识 别 来 说 , 图像 并 没有 什么 太 大 变化 ， 而 对 
于 机 器 来 说 ， 则 分 类 完全 不 一 样 。 因 此 为 了 解决 对 抗 数 据 样本 的 脆弱 性 ， 引 入 了 “对 抗 生 成 网 
络 ”。 事实 上 ,对抗 样本 的 脆弱 性 并 不 是 深度 学 习 所 独 有 的 ,在 很 多 的 机 器 学 习 模型 中 普遍 存 
在 ， 因 此 进一步 研究 有 利于 抵抗 对 抗 样本 的 算法 ， 实 际 上 有 利于 整个 机 器 学 习 领 域 的 进步 。 








对 抗 生 成 网 络 详解 





看 图 22-2 所 示 的 故事 。 
男 : 亲爱 的 你 的 图 修好 了 ， 要 不 要 看 看 ? 
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女 : 这 是 什么 鬼 ， 脸 那么 大 ， 你 行 不 行 啊 ? 〈 哺 ! ) 
男 : 〈 揪 着 脸 ) 对 不 起 …… 

男 : 亲爱 的 ， 这 次 好 看 吗 ? 

女 : 眼睛 那么 小 ， 我 的 眼 真 的 那么 小 吗 ? 

男 ; 真 …*… ( 哺 ! ) 没有 没有 ， 是 我 修 图 技术 不 行 。 
男 : 这 次 行 了 吧 ? 

女 : 〈 揪 着 脸 ) 身材 这 么 那么 狠 ， 说 好 的 腿 长 两 米 呢 ? 
男 : 要 不 要 看 看 ? 

女 : 咽 ， 我 拿 去 当头 像 了 。 





图 22-2 “不服 就 是 GAN: 一 个 悲惨 的 故事 
上 面 这 段 话 讲述 了 一 位 “男性 无 偿 修 图 师 ” 的 成 长 故事 ， 可 能 有 读者 会 问 ， 这 个 故事 和 本 
章 所 说 的 GAN 有 什么 关系 呢 ? 其 实 ， 如 果 你 能 读 懂 这 段 故事 中 表达 的 意义 ， 那 么 你 一 定 能 够 
了 解 对 抗 生 成 网 络 的 原理 。 


22.1.1 GAN 的 基本 原理 介绍 


GAN 的 原理 非常 简单 ， 顾 名 思 义 即 一 个 “生成 器 ”和 一 个 “辨别 器 ”共同 在 一 个 网 络 中 
不 停 地 进行 “对 抗 ”。 拿 上 面 例子 中 的 说 法 ， 生 成 器 好 比 男生 ， 而 辨别 器 好 比 女生 。 男 生 的 任 
务 是 想方设法 地 将 “不 存在 的 ”图 片 生产 出 来 ， 而 女生 的 目的 是 想方设法 地 对 图 片 进行 辨别 ， 
识破 哪里 “不 像 自 己 ”。 这 样 在 不 停 地 “ 修 ” 与 “ 辨 ”的 过 程 中 ， 男 女 都 在 不 断 强 化 自己 的 
辨识 能 力 ， 同 时 又 在 彼此 的 “监督 ”下 提升 自己 。 

首先 , 介绍 生成 器 。 生 成 器 在 深度 学 习 领域 中 是 一 个 非常 重要 的 器 件 ， 针 对 深度 学 习 对 样 
本 数据 需求 大 的 特点 ， 生 成 器 可 以 帮助 使 用 者 在 有 限 的 图 像 、 语 音 、 文 本 数据 中 生成 更 多 的 形 
式 有 变化 的 数据 。 更 有 甚 者 ， 生 成 模型 可 以 帮助 模拟 这 些 高 维 数据 的 分 布 ， 提 高 数据 的 数量 和 
质量 ， 将 深度 学 习 由 全 监督 学 习 变化 为 半 监 督学 习 ， 从 而 提升 了 学 习 效率 。 
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举例 来 说 , 图 像 的 缩小 与 放大 、 形态 的 拉 伸 与 变换 、 锐 化 与 亮 化 等 都 是 常用 的 生成 器 模型 。 
图 像 生成 器 模型 在 卷 积 神经 网 络 、 图 像 识别 以 及 图 像 分 割 方面 有 着 非常 广泛 的 应 用 , 如 图 22-3 
所 示 。 








图 22-3 ”光影 变化 后 的 图 像 
从 理论 上 说 ， 如 果 有 数据 集 咎 ri.mm}， 需 要 建立 一 个 关于 这 个 数据 类 型 的 生成 横 
型 。 那 么 最 简单 的 方法 就 是 : 假设 这 些 数 据 的 分 布 P{X} 服 从 g(x; 9 )， 在 观测 数据 上 通过 最 大 
化 似 然 函数 得 到 8 的 值 ， 即 最 大 似 然 法 : 





9 = max > log f(x,) 
1 
这 样 就 可 以 在 已 有 数据 的 基础 上 延展 获取 更 多 的 、 与 已 有 数据 有 着 最 大 相似 度 的 数据 集 。 
本 节 开头 描述 的 场景 中 ， 有 两 个 角色 ,分别 是 男女 作为 生成 器 和 辨别 器 。 男 生 一 直通 过 修 
图 将 女生 修改 为 非常 优秀 和 美丽 的 照片 。 而 女生 则 一 直 以 “明察秋毫 ”的 行为 找 出 男生 修改 后 
的 图 片 让 自己 不 满意 的 地 方 。 于 是 两 者 的 流程 如 图 22-4 所 示 。 


生成 与 辨别 








图 224 ”生成 与 辨别 
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男生 获得 一 组 图 片 一 女生 辨别 图 片 一 男生 继续 修 图 一 女生 继续 辨别 ,这 个 过 程 直到 最 终 达 
到 平衡 ， 女 生 认可 修 的 图 为 止 。 

现在 回 到 GAN 中 , 创建 的 网 络 中 有 一 个 生成 模型 和 一 个 辨别 模型 。 生 成 模型 (generator) 
的 作用 是 生成 一 个 看 起 来 真实 的 数据 ， 而 辨别 模型 〈discriminator) 的 作用 是 辨别 一 张 图 片 是 
生成 器 生成 出 来 的 ， 还 是 真实 存在 的 。 如 果 此 时 把 男女 的 平衡 场景 变 为 如 下 : 
生成 器 获得 一 组 图 片 一 辨别 器 辨别 图 片 一 生成 器 继续 生成 图 一 辨别 器 继续 辨别 ,这 个 过 程 
直到 最 终 达 到 平衡 , 辨别 器 无 法 辨认 图 是 真实 的 还 是 生成 的 为 止 。 此 时 生成 对 抗 网 络 会 达到 一 
个 较为 完美 的 状态 。 
生成 对 抗 网 络 实际 上 是 一 种 生成 器 与 辨别 器 之 间 的 博弈 使 用 数学 将 整个 过 程 进 行 描述 的 





话 : 
Glz) = generator(x) 
D(r) = discriminator(real TB) 
Dl(g) = discriminator(G(z)) 


假设 我 们 的 生成 模型 是 G(z), 其 中 = 是 一 个 随机 噪声 ,而 g 将 这 个 随机 噪声 转化 为 数据 类 
型 。 而 DD 是 一 个 判别 模型 ， 对 任何 输入 x，D(x) 的 输出 是 0~1 范围 内 的 一 个 实数 ， 用 来 判断 这 
个 图 片 是 一 个 真实 图 片 的 概率 是 多 大 。 令 Pr 和 Pg 分 别 代表 真实 图 像 的 分 布 与 生成 图 像 的 分 布 ， 
此 时 ， 可 以 得 到 判别 模型 的 目标 函数 如 下 : 


min maxV(D,G) = Ezvpsnla) llog D(Z)] + Esp. (a)llog(l = D(G(z)))] 


这 里 笔者 详细 解释 一 下 ， 等 号 左边 的 min 和 max 分 别 代表 在 此 网 络 中 ， 需 要 最 小 化 G 和 
最 大 化 D, 用 语言 表示 就 是 最 小 化 生成 模型 与 真实 图 像 的 差异 ,同时 最 大 化 辨别 模型 的 辨别 能 
力 。 

那么 问题 又 来 了 , 这 个 最 大 最 小 化 目标 函数 如 何 进 行 优化 呢 ? 最 简单 的 处 理 办 法 就 是 分 别 
对 D 和 G 进行 交互 欠 代 ， 固 定 G， 优 化 D， 一 段 时 间 后 ， 固 定 D 再 优化 G， 直 到 过 程 收 敛 。 
从 图 22-5 可 以 看 到 ， 当 训练 开始 时 ， 真 实 样本 分 布 、 生 成 样本 分 布 以 及 判别 模型 分 别 是 
图 中 的 黑 线 、 绿 线 和 蓝 线 ， 而 此 时 判别 模型 是 无 法 很 好 地 区 分 真实 样本 和 生成 样本 的 。 接 下 来 
固定 生成 模型 ， 而 优化 判别 模型 时 ， 优 化 结果 如 第 二 幅 图 所 示 ， 可 以 看 出 ， 这 个 时 候 判 别 模型 
已 经 可 以 较 好 地 区 分 生成 数据 和 真实 数据 了 。 第 三 步 是 固定 判别 模型 ， 改 进 生 成 模型 ， 试 图 让 
判别 模型 无 法 区 分 生成 图 片 与 真实 图 片 , 在 这 个 过 程 中 , 可 以 看 出 由 模型 生成 的 图 片 分 布 与 真 
实 图 片 分 布 更 加 接近 ， 这 样 的 迭代 不 断 进行 ， 直 到 最 终 收敛 ， 生 成 分 布 和 真实 分 布 重合 。 











442 


第 22 章 不 服 就 是 GAN 一 一 对 抗 生 成 网 络 


po(data) ,Data distribution 
| Model distribution 
a A 入 









Poorly ft model After updating D After updating G Mixed strategy 
equilibrium 


图 22-5 生成 与 辨别 的 优化 
以 上 就 是 生成 式 对 抗 网 络 的 基本 核心 知识 , 简单 吧 。 但 是 需要 指出 的 是 , 对 于 生成 式 模 型 
这 样 的 过 程 来 说 , 构建 一 个 好 的 成 本 函数 是 非常 重要 ， 也 是 最 难 指出 的 ， 当 然 这 也 是 生成 对 抗 
网 络 的 闪光 之 处 .对 抗 网 络 可 以 学 习 自 己 的 成 本 函数 一 一 自己 那 套 复杂 的 对 错 规则 无 须 精 
心 设计 和 构建 一 个 成 本 函数 。 





22.1.2 简单 GAN 的 TensorFlow 实现 


介绍 完 GAN 的 基本 理论 之 后 ， 现 在 就 开始 做 一 个 GAN 的 基本 实现 。 从 上 面 的 介绍 可 以 
看 到 ， 对 于 GAN 的 基本 算法 来 说 ， 其 原理 和 内 涵 并 不 复杂 ， 其 构成 分 为 2 部 分 : 


@ Generator (生成 器 ) ， 下 文 简称 G。 
@ Discriminator (辨别 器 ) ， 下 文 简称 D。 


在 网 络 计算 的 过 程 中 , 这 2 个 部 分 相互 作用 , 左右 互 搏 从 而 达到 一 个 动态 平衡 。 简单 起 见 ， 
首先 笔者 将 会 是 用 GAN 做 一 个 高 斯 图 案 的 生成 和 显示 ， 如 图 22-6 所 示 。 


Guass function 














图 22-6 ”高 斯 图 像 
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1. 第 一 步 : 数据 的 准备 


对 于 数据 的 准备 ， 本 例 中 主要 有 2 个 部 分 , 分 别 是 高 斯 数据 图 形 和 随机 产生 的 噪音 。 高 斯 
数据 集 用 于 对 数据 进行 正 向 判定 ， 而 随机 作为 一 个 “seed”， 从 生成 器 产生 数据 。 代 码 如 下 : 
高 斯 数据 集 : 





随机 噪音 数据 集 : 





其 中 size 和 length 分 别 是 生成 的 数据 大 小 和 每 个 数据 的 维度 ， 在 这 里 设 定 : 





因此 无 论 对 于 高 斯 数据 集 还 是 噪音 数据 集 ， 其 大 小 都 可 以 归 一 为 [size,length]。 
2. 第 二 步 : 对 抗 网 络 的 设计 
对 于 对 抗 生 成 网 络 来 说 , 首先 需要 确定 生成 器 和 判别 器 的 具体 结构 。 因 为 本 例 只 是 进行 简 
单 的 数据 集 的 生成 ， 因 此 可 以 使 用 一 个 简单 的 全 连接 网 络 ， 如 图 22-7 所 示 。 
0 0 1 


inputvals targetvals 






Ba layer2 ”000 —> 001 
nh 001 —> 010 
010 —> 011 
hidden 011 —> 100 
mits 100 —> 101 
4 101 —> 110 
blas Welg layer1 110 > 111 
unit 2 111 一 > 000 


图 22-7 全 连接 层 
对 于 全 连接 层 的 写法 相信 读者 也 没有 太 大 的 困难 ， 生 成 器 与 判别 器 的 代码 如 下 : 
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(1) 生成 器 


所 基 册 ”出 于 生成 器 在 具 休 代码 的 执行 过 程 中 需要 被 多 次 使 用 ， 因 此 额外 添加 一 个 参数 ， 即 reuse 
参数 。 使 得 其 能 够 在 训练 时 更 新 参数 ， 从 而 在 进行 数据 计算 时 可 以 直接 使 用 。 





slim.arg_scope 中 对 参数 fully_ connected 中 的 参数 进行 了 设置 ， 其 中 由 于 不 需要 使 用 激活 
函数 ， 因 此 将 其 设置 成 activation_fn=None。 


(2) 判别 器 





判别 器 的 设计 与 生成 器 类 似 , 不 同 的 是 这 里 采用 了 更 多 的 全 连接 层 , 并 且 对 于 激活 函数 的 
选择 使 用 了 正弦 函数 ， 使 得 生成 的 数据 在 [0,1] 之 间 。 


3. 第 三 步 : 损失 函数 的 确定 
对 于 GAN 来 说 ,损失 函数 的 确定 是 最 为 重要 的 一 环 ， 在 上 一 小 节 已 经 说 明 ， 通 过 公式 可 
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以 验证 ， 需 要 确保 生成 器 与 判别 器 的 博弈 均衡 。 
具体 来 说 ， 生 成 器 G 生成 了 一 系列 的 数据 ， 而 辨别 器 D 对 其 进行 辨别 ， 区 分 真实 的 高 斯 
分 布 和 G 生成 的 假 的 高 斯 数据 。 所 以 ， 可 以 将 其 转换 成 一 个 传统 的 二 分 类 问题 。 


min max V(D,G) = Ez~pontz)llog D(z)] + Ez~p.(z)llog(l — D(G(z)))] 
将 其 通过 代码 的 形式 展示 如 下 : 





fake_input 和 real_input 分 别 是 占 位 符 ， 用 于 对 数据 进行 输入 ， 而 generate 和 discriminate 
是 不 同 的 函数 ， 用 于 对 数据 进行 生成 和 判定 。 这 里 可 以 看 到 ， 第 二 次 判定 Gz 的 时 候 ， 对 于 辩 
别 器 的 参数 是 无 须 进行 更 新 的 ， 即 只 用 其 进行 计算 即 可 。 


4. 第 四 步 : 固定 模型 参数 
在 前 面 介绍 时 也 说 了 ， 对 于 GAN， 判 别 器 和 生成 器 是 要 求 分 开 训 练 的 ， 当 判别 器 进行 训 


练 时 只 更 新 判别 器 的 训练 参数 ， 而 当 生成 器 进行 训练 时 ， 需 要 只 更 新 生成 器 的 训练 参数 ， 因 此 
具体 代码 如 下 : 








在 分 布 介绍 完 GAN 各 个 组 成 部 分 后 ， 完 整 代码 如 下 : 
【程序 22-1】 
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需要 注意 的 是 ， 这 个 代码 计算 量 较 大 ， 要 求 一 定 的 计算 时 间 ， 结 果 如 图 22-8 所 示 。 





绎 包 为 真实 分 布 
红色 为 生 威 分 布 


有 











3 让 六 + 3 


图 22-8 真实 数据 与 生成 数据 


22.2 从 0 到 1 一 实战 :使 用 GAN 生成 于 号 个 巡 


上 一 节 中 , 从 噪声 数据 生成 了 符合 高 斯 分 布 的 数据 。 可 能 有 读者 认为 这 并 不 能 算是 一 个 真 
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正 能 够 表达 出 GAN 网 络 的 比较 有 价值 的 示例 ， 更 可 能 是 一 个 全 连接 的 参数 学 习 过 程 。 笔 者 深 
以 为 然 。 

本 节 将 使 用 GAN 完成 手写 数字 的 随机 生成 过 程 (图 22-9) ， 这 是 完整 训练 一 个 神经 网 络 
能 够 自主 地 从 无 到 有 地 生成 手写 数字 字体 的 例子 。 





22-9 GAN 网 络 生成 图 片 流 程 


22.2.1 分 步骤 简介 


1. 第 一 步 : 数据 的 准备 

对 于 使 用 GAN 进行 网 络 设计 来 说 ， 第 一 步 就 是 数据 的 收集 ， 这 里 采用 的 是 深度 学 习 中 最 
常见 的 MNIST 数据 集 作为 训练 的 数据 来 源 。 其 具体 使 用 如 下 : 
mnist = input data.read data sets('MNIST data'，one hot=True 

读者 可 以 看 到 这 里 只 是 一 行 代码 ，MNIST 数据 集 的 获取 与 下 载 在 前 面 的 内 容 中 已 经 有 了 
详细 的 介绍 ， 这 里 就 不 再 重复 。 

2. 第 二 步 : 损失 函数 的 确定 

前 面 已 经 说 了 ，GAN 网 络 能 够 正常 使 用 和 工作 的 前 提 就 是 有 一 个 好 的 损失 函数 能 够 反 向 
传播 误差 与 输出 之 间 的 梯度 。 


在 本 例 中 同样 设置 生成 器 函数 为 G 而 判别 器 函数 为 D。 为 了 想 让 其 更 好 地 工作 ， 用 其 本 
身 的 预测 和 其 本 身 期 望 之 间 的 交叉 炳 作 损失 函数 。 





第 22 章 ”不 服 就 是 GAN 一 一 对 抗 生 成 网 络 








可 以 看 到 这 里 使 用 的 是 ， 每 个 函数 对 其 自身 的 期 望 与 自身 的 值 之 间 的 交叉 炉 作 为 损失 函 
数 。 而 给 reduce_mean 用 以 对 批量 数据 求 取 一 个 均值 。 

3. 第 三 步 : 创建 生成 器 与 判别 器 程序 

对 于 使 用 GAN 网 络 进行 图 片 生 成 ， 与 上 一 节 中 噪音 生成 高 斯 分 布 的 形式 一 样 ， 同 样 需要 
设 定 一 个 生成 器 与 一 个 判别 器 。 

此 时 与 上 一 节 中 对 于 噪声 函数 的 处 理 略 有 不 同 之 处 在 于 , 对 于 图 像 的 生成 与 处 理 , 更 多 的 
情况 是 采用 卷 积 网 络 的 形式 对 其 进行 特征 提取 与 转化 。 因 此 在 生成 器 与 判别 器 的 组 成 架构 中 ， 
笔者 使 用 卷 积 层 进行 数据 的 处 理 。 

在 未 进行 程序 编写 时 需要 注意 的 是 ， 对 于 图 像 的 应 用 ， 更 多 的 情况 下 需要 在 卷 积 层 使 用 
batch_normalization 作为 数据 的 归 一 化 处 理 方案 ， 这 也 是 笔者 所 建议 的 ， 因 此 在 定义 多 个 卷 积 
层 时 需要 先 对 batch_normalization 的 参数 进行 设 定 ， 代 码 如 下 : 





在 上 述 代码 段 中 分 别 定义 了 batch_normalization 的 衰减 系数 , 更 新 模式 已 经 计算 参数 的 学 
习 方案 ,读者 可 以 按 此 模板 定义 即 可 。 
下 面 分 别 对 生成 器 和 判别 器 进行 定义 ， 生 成 器 由 多 个 卷 积 层 组 成 ， 如 图 22-10 所 示 。 
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22-10 ”MNIST 手写 体 生成 器 结构 图 


可 以 看 到 ， 这 里 首先 输入 了 一 个 100 个 特征 的 噪音 ， 之 后 经 过 第 一 个 卷 积 形成 [4,4,1024] 
大 小 的 卷 积 , 之 后 经 过 更 多 的 卷 积 分 别 操作 最 终 形成 一 个 [64,64,3] 大 小 的 、 有 图 样 特征 的 可 视 
化 图 片 。 代 码 如 下 : 


(1) 生成 器 
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判别 器 的 形式 与 之 类 似 , 也 是 通过 若干 卷 积 层 对 其 进行 处 理 , 对 于 最 后 的 输出 ， 因 为 需要 
计算 其 交叉 烂 ， 所 以 输出 以 一 个 浮 点 数 为 最 佳 。 在 这 里 需要 说 明 的 是 ， 对 于 最 后 一 层 的 处 理 ， 
传统 上 使 用 全 连接 层 作 为 最 终 的 计算 结果 , 实际 上 使 用 一 个 全 卷 积 也 可 以 达到 同样 的 功能 , 代 
码 如 下 : 


(2) 判别 器 
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最 终 创建 一 个 model.py 文件 作为 模型 的 存储 文件 ， 其 内 容 如 下 : 
【程序 22-2】 
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22.2.2 ”GAN 网络 的 训练 


对 于 定义 好 的 网 络 ， 直 接 可 以 进行 训练 ， 在 这 里 需要 额外 定义 一 个 存储 地 址 ， 用 以 存储 
ckpt 格式 的 模型 计算 存档 地 址 。 这 里 笔者 建议 读者 自行 设计 即 可 。 

除 此 之 外 对 于 模型 的 计算 ， 数 据 的 输入 读者 建议 输入 一 个 batch_size， 而 具体 的 多 少 可 以 
根据 读者 的 机 器 自行 确定 。 
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【程序 22-3】 





images_for_ tensorboard = model.generate(5,is training=False,reuse=True) 


tf.summary.image('Generated images', images for tensorboard, 5) 


merged summary op = tf.summary.merge all() # 修改 到 sess 上 方 


saver = tf.train.Saver () 


with tf.Session() as sess: 
writer = tf.summary.FileWriter (logdir path, sess.graph) # 紧 接 在 
tf.Session() as sess 下 
sess.run(tf.global _ variables_initializer()) 


for i in range(120) : 
batch xs = 
mnist.train.next batch(batch size) [0] .reshape([batch size, 28, 28, 1]) 
_d loss var = 
sess.run([d trainer,d loss],feed dict={x input:batch xs}) 
Print("d loss var: ",d loss var) 


print( ee pre train epoch %d end--------- 之 ) 


i=0 
while True: 
batch xs = 
mnist.train.next batch(batch size) [0] .reshape([batch size, 28, 28, 1]) 
*total op, g loss var = 
sess.run([d trainer,g trainer,g_loss],feed dict={x _ input:batch xs}) 
print("g_loss var: ",g_loss_ var) 
i+= 1 
aE = 0 
merged summary = 
sess.run(merged summary op,feed dict={x input:batch xs}) 
writer.add summary (merged summary, global _ step=i) 
saver.save(sess,"./discriminate ckpt/GAN.ckpt") 
Print(se==>= model train epoch %d end--------- "%1i) 


经 过 一 段 时 间 的 训练 ， 可 以 生成 的 最 终结 果 如 图 22-11 所 示 。 
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图 22-11 生成 的 手写 体 模型 
可 以 看 到 图 片 依次 从 左 到 右 依次 变 得 更 加 清晰 , 更 像 是 手写 体 。 然 而 实际 上 这 部 分 使 用 的 
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是 对 抗 生 成 网 络 进行 处 理 的 结果 。 


22 .3 本 章 小 结 


对 抗 生 成 网 络 (GAN) 是 一 个 非常 强大 和 有 用 的 工具 ， 可 以 说 GAN 的 诞生 改写 了 深度 学 
习 在 图 像 方 面 的 使 用 , 使 得 大 量 的 无 监督 无 标签 的 数据 , 可 以 投入 到 模型 中 进行 自动 判别 和 使 
用 。 

在 具体 使 用 上 ， 除 了 前 面 生成 手写 的 数字 外 ， 可 以 用 其 生成 人 脸 以 及 所 需要 的 不 同 图 案 。 
除 此 之 外 ，GAN 还 在 图 像 分 割 、 自 动 标注 、 语 义 分 割 等 方面 有 着 更 多 的 应 用 。 下 面 图 22-12 
所 示 是 生成 的 人 脸 数 据 的 例子 。 








图 22-12 ”生成 的 人 脸 数据 

GAN 的 理论 是 如 此 的 简单 ， 使 得 它 成 为 2016 年 以 来 冉冉 升 起 的 深度 学 习 最 耀眼 的 超 新 
星 。 对 它 的 学 习 和 应 用 以 及 发 展 研究 仍 在 不 停 地 进行 ， 并 从 中 诞生 了 DCGAN、cycleGAN、 
discoGAN 等 一 系列 家 族 成 员 。 为 了 弥补 GAN 在 诞生 以 来 缺乏 一 种 比较 合适 的 对 生成 器 和 判 
别 器 一 个 通用 的 判定 指标 的 问题 ，wass 提出 了 使 用 相关 系数 进行 解决 的 方案 ， 这 些 都 在 不 停 
地 促进 GAN 理论 向 前 发 展 。 
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